tikv磁盘存储数据一直异常增加

我是人间不清醒 · 2024 年7 月 28 日 01:00

关注下这问题

Hacker_UBVfs1Zv · 2024 年7 月 29 日 01:25

MySQL.tidb的查询

Hacker_UBVfs1Zv · 2024 年7 月 29 日 01:26

磁盘查了基本都是sst文件占用的

Hacker_UBVfs1Zv · 2024 年7 月 29 日 01:31

有文档吗，需要怎么调整才能生效，及时GC，清理掉过期的数据，

zhanggame1 · 2024 年7 月 29 日 01:34

第一个图看起来像是compact出问题了

Hacker_UBVfs1Zv · 2024 年7 月 29 日 01:37

我是用了手动compact也没见减少

h5n1 · 2024 年7 月 29 日 01:47

gc失败，数据不过期，compact也没用，得喊个研发给你看看

zhanggame1 · 2024 年7 月 29 日 01:48

tiup ctl:v7.6.0 tikv --host 127.0.0.1:20162 compact -d kv --bottommost force -c write

tiup ctl:v7.6.0 tikv --host 127.0.0.1:20162 compact -d kv --bottommost force -c default

参看上面的例子，compact需要跑2次，不同的cf

WalterWj · 2024 年7 月 29 日 02:20

进入 pd-ctl ，查下：
» service-gc-safepoint
{
“service_gc_safe_points”: [
{
“service_id”: “gc_worker”,
“expired_at”: 9223372036854775807,
“safe_point”: 450541884193374208
}
],
“gc_safe_point”: 450541884193374208
}

dba-kit · 2024 年7 月 29 日 02:22

+1，这里能详细展示出来，到底是哪个服务阻塞了 GC

Hacker_UBVfs1Zv · 2024 年7 月 29 日 02:25

WalterWj · 2024 年7 月 29 日 02:29

看起来两个 safe point 是对不上的。

我看上文有写扩缩容过 pd，pd 扩缩容之后，有 reload 整个集群，刷配置么？

Hacker_UBVfs1Zv · 2024 年7 月 29 日 02:32

tikv没有刷新配置，reload需要时间太长了，有没有只刷新配置不重启角色的命令

h5n1 · 2024 年7 月 29 日 02:40

Hacker_UBVfs1Zv · 2024 年7 月 29 日 02:44

刷新完配置之后还是

h5n1 · 2024 年7 月 29 日 02:46

看下gc leader的日志里还有报错吗

dba-kit · 2024 年7 月 29 日 02:54

你当时是所有 PD 都被替换了，还是只替换了部分的 PD？

Hacker_UBVfs1Zv · 2024 年7 月 29 日 02:56

pdleader的log没有异常

WalterWj · 2024 年7 月 29 日 02:57

没刷新配置，那你扩缩容之后 tidb-server 有没有发生过重启？看下各个组件的 uptime。比如 oom 或者什么操作重启过就会有问题。

Hacker_UBVfs1Zv · 2024 年7 月 29 日 02:58

所有pd都迁移了机器，都是使用tiup命令中的scale-out和scale-in做的