tug_twf
(Hacker Fqg5 Vi Rn)
1
【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】
【复现路径】tidb从5.1.4升级到6.1.7抖动比较频繁
【遇到的问题:问题现象及影响】
tidb从5.1.4升级到6.1.7抖动比较频繁
查看对应的监控发现是某个节点 propose wait duration per server耗时很严重
查看对应的tikv日志发现耗时主要集中在write_raft
tidb 5.4 起,支持使用 Raft Engine 作为 TiKV 的日志存储引擎 ,我们升级后目前也默认使用了 raft-engine 不确定这块是不是有什么需要调整的
注:从节点的io相关情况来看,机器不是相关瓶颈哈,io,cpu等资源都比较空闲
h5n1
(H5n1)
2
升级前propose wait duration都是多少
wf 关于集群读写变慢的问题,排查思路可以看看下面的文章,复杂问题可能得要一个个环节来进行确认,先尝试找到问题原因我们再来针对性解决。
propose wait 比较高,说明是把数据转为raft log日志流写入raft db的过程出现了性能问题。重点排查一下问题节点的raft db有没有明显的异常。
其他节点正常,而只有一台节点异常,可能是这台节点的rocksdb 有问题也说不定。
如果业务很急,影响比较大,可以考虑先缩容这台节点,有条件的话扩容到其他节点上。看看能否解决问题,根因可以后面再分析确认。
tug_twf
(Hacker Fqg5 Vi Rn)
8
不是 其他节点一样也会有抖动,不是光一个节点,只是排查的时候截图了一个刚好有问题的节点呢
tug_twf
(Hacker Fqg5 Vi Rn)
9
问题节点比较多,可能不同时间段有不同节点有这个问题
tug_twf
(Hacker Fqg5 Vi Rn)
10
升级前 propose wait duration也有小抖动,但是不会像升级后抖动这么大
嗯,目前的监控和日志都指向了 raft log写入的流程,先重点分析raft写的情况看看
tug_twf
(Hacker Fqg5 Vi Rn)
12
嗯嗯 因为升级后默认开启了 raft engine 所以也不会写raftdb了,现在还是怀疑是raft engine引擎写入又抖动,我们关闭重启看看
嗯,关闭raft engine用回默认的方式 看看有没有好转
h5n1
(H5n1)
18
commit log 、append log、 网络延迟再抖动时哪些有抖动
tug_twf
(Hacker Fqg5 Vi Rn)
19
调整了 但是一样抖动 从日志相关分析来看,瓶颈好像也不在这里
tug_twf
(Hacker Fqg5 Vi Rn)
20
只是看到写raft 这块抖动比较严重 其他apend log这些延迟都还好