严重问题~~~tidb集群升级到6.5.3出现写入缓慢,leader反复平衡问题

xmlianfeng · 2023 年6 月 21 日 17:30

【 TiDB 使用环境】生产环境
【 TiDB 版本】6.1.5 升级到 6.5.3

升级后出现 kv节点评分100 , 全都是slow store

leader出现

pd 监控不定期出现 pending-peer-region-count,随后leader数量就出现下降

请问有什么排查方向? 生产环境有点着急…~

zhanggame1 · 2023 年6 月 21 日 21:43

检查下日志，看看有没有异常

redgame · 2023 年6 月 22 日 01:53

一般是某个 region 发生了故障而导致的负载不均衡或数据不一致，思路是，检查 PD 集群是否正常，并确保 PD 日志中没有错误出现，检查 TiKV 实例的日志以了解是否存在有关延迟和错误的信息。再 pd-ctl operator查下

xmlianfeng · 2023 年6 月 23 日 01:19

目前做了以下操作：

其中两个store weigh leader 设置为0
2.调整raftstore.store-pool-size 参数为8
slow store消失，但是raftstore cpu 波动很厉害，目前集群写入速度明显变低。请问要如何排查

Anna · 2023 年6 月 24 日 05:30

马克马克

h5n1 · 2023 年6 月 29 日 02:59

raftstore.inspect-interval 整个参数增加下看看呢，slow store的检测频率，默认500ms ，调整成10分钟的看看
看监控有大量空region，合并过程中可能会有性能影响

system · 2023 年8 月 28 日 03:00

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。