【概述】:场景 + 问题概述
TiDB 强删了一个store,补充副本很慢。
【背景】:做过哪些操作
强删了一个store
【现象】:业务和数据库现象
down-peer降到100以后很难下去了。通过pd-ctl 查看,在删除的store上有副本的region额外增加了一个peer,但是这个peer等很久也没同步。怎么能加速呢?
【问题】:当前遇到的问题
加速down-peer的副本补充.
另外,还有个别tikv时不时的disconnected,现在除了副本补充,没有别的动作,也没有业务压力。
【业务影响】:
【TiDB 版本】:
4.0.8
1 个赞
1、出现 disconnect 的问题,表示在一定时间内,PD 没有收到 store 的 心跳后,其状态会变为 disconnect:
2、针对这个问题你可以先自行检查下 tikv 和 pd leader 间的网络通讯情况。
另外,提供下 :
1)pd leader 的 log
2)pd 的 grafana 监控
3)tikv-details 监控
4)pd-ctl config show all
监控导出工具:
3 个赞
感谢大佬回复,disconnected的日志冲掉了。
@DanielZhangQD 大佬,operator部署的tidb,通过kubectl logs 拿不到了,是不是就没了?
当时disconnected的时候,ping是没问题的,延迟没有变化。
disconnected出现的时候集群正在忙着迁移region。
集群规模大概10t左右,6个tikv,大概每个上面十几k的region,要做的事儿是迁移一个tikv5(因为是本地盘,得删了重建)
做法是:
先扩一个tikv6,然后下线要删除的tikv5。同时业务也有压力,大概十几k的qps。1k的写入。
但是在迁移过程中,突然tikv1就disconnected了。
duzq
(duzq)
6
kubectl exec -it 登录到指定容器里应该是可以找到未被清理的日志的
system
(system)
关闭
8
此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。