5.1.4升级到6.1.7之后 性能抖动比较严重

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】
【复现路径】tidb从5.1.4升级到6.1.7抖动比较频繁
【遇到的问题:问题现象及影响】
tidb从5.1.4升级到6.1.7抖动比较频繁

查看对应的监控发现是某个节点 propose wait duration per server耗时很严重

查看对应的tikv日志发现耗时主要集中在write_raft

tidb 5.4 起,支持使用 Raft Engine 作为 TiKV 的日志存储引擎 ,我们升级后目前也默认使用了 raft-engine 不确定这块是不是有什么需要调整的

注:从节点的io相关情况来看,机器不是相关瓶颈哈,io,cpu等资源都比较空闲

升级前propose wait duration都是多少

正常来说参数没啥要调整的,应该还是你环境问题

wf 关于集群读写变慢的问题,排查思路可以看看下面的文章,复杂问题可能得要一个个环节来进行确认,先尝试找到问题原因我们再来针对性解决。

propose wait 比较高,说明是把数据转为raft log日志流写入raft db的过程出现了性能问题。重点排查一下问题节点的raft db有没有明显的异常。

其他节点正常,而只有一台节点异常,可能是这台节点的rocksdb 有问题也说不定。

如果业务很急,影响比较大,可以考虑先缩容这台节点,有条件的话扩容到其他节点上。看看能否解决问题,根因可以后面再分析确认。

感觉6是慢点 你升级到7.5 有惊喜

不是 其他节点一样也会有抖动,不是光一个节点,只是排查的时候截图了一个刚好有问题的节点呢

问题节点比较多,可能不同时间段有不同节点有这个问题

升级前 propose wait duration也有小抖动,但是不会像升级后抖动这么大

嗯,目前的监控和日志都指向了 raft log写入的流程,先重点分析raft写的情况看看

嗯嗯 因为升级后默认开启了 raft engine 所以也不会写raftdb了,现在还是怀疑是raft engine引擎写入又抖动,我们关闭重启看看

嗯,关闭raft engine用回默认的方式 看看有没有好转

查下 analyze 的版本看看

看下来是在写入时,有收集操作…

查下这个面板的其他的指标是否正常…

image
升级上来的 值为1


就这个指标抖动比较严重

切换成 2 试试,多观察下

commit log 、append log、 网络延迟再抖动时哪些有抖动

调整了 但是一样抖动 从日志相关分析来看,瓶颈好像也不在这里

只是看到写raft 这块抖动比较严重 其他apend log这些延迟都还好