down region补齐的很慢

【概述】:场景 + 问题概述
TiDB 强删了一个store,补充副本很慢。
【背景】:做过哪些操作
强删了一个store
【现象】:业务和数据库现象
down-peer降到100以后很难下去了。通过pd-ctl 查看,在删除的store上有副本的region额外增加了一个peer,但是这个peer等很久也没同步。怎么能加速呢?
【问题】:当前遇到的问题
加速down-peer的副本补充.
另外,还有个别tikv时不时的disconnected,现在除了副本补充,没有别的动作,也没有业务压力。

【业务影响】:
【TiDB 版本】:
4.0.8

1 个赞

改天测一下

1、出现 disconnect 的问题,表示在一定时间内,PD 没有收到 store 的 心跳后,其状态会变为 disconnect:

2、针对这个问题你可以先自行检查下 tikv 和 pd leader 间的网络通讯情况。
另外,提供下 :
1)pd leader 的 log
2)pd 的 grafana 监控
3)tikv-details 监控
4)pd-ctl config show all

监控导出工具:

3 个赞

感谢大佬回复,disconnected的日志冲掉了。
@DanielZhangQD 大佬,operator部署的tidb,通过kubectl logs 拿不到了,是不是就没了?

当时disconnected的时候,ping是没问题的,延迟没有变化。
disconnected出现的时候集群正在忙着迁移region。

集群规模大概10t左右,6个tikv,大概每个上面十几k的region,要做的事儿是迁移一个tikv5(因为是本地盘,得删了重建)

做法是:
先扩一个tikv6,然后下线要删除的tikv5。同时业务也有压力,大概十几k的qps。1k的写入。

但是在迁移过程中,突然tikv1就disconnected了。

kubectl exec -it 登录到指定容器里应该是可以找到未被清理的日志的

日志目录?

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。