【 TiDB 使用环境】生产环境
【 TiDB 版本】6.5.0
【资源配置】pd db混合3,kv6
【复现路径】
连续在一大表上进行更新操作,持续一段时间
【遇到的问题:问题现象及影响】
请问如何分析以下现象的关联?
首先发现的问题是更新操作延迟变高,在kv日志中发现prewrite/commit时间过长的日志
然后在granfana面板中,发现该时段内kv节点内存增长
继续查看kv日志发现同时段中pd发生选举,kv日志:
pd日志:
【 TiDB 使用环境】生产环境
【 TiDB 版本】6.5.0
【资源配置】pd db混合3,kv6
【复现路径】
连续在一大表上进行更新操作,持续一段时间
【遇到的问题:问题现象及影响】
请问如何分析以下现象的关联?
首先发现的问题是更新操作延迟变高,在kv日志中发现prewrite/commit时间过长的日志
然后在granfana面板中,发现该时段内kv节点内存增长
继续查看kv日志发现同时段中pd发生选举,kv日志:
pd日志:
混合部署了?我理解是有资源相互争用?要不试试 Cgroup 或者 numactl 或者每个组件配置下 cpu 内存?
混合部署的节点我装了numa,但是没有配置过,那个时段pd所在节点的cpu定在500%左右
另外对于一个更新操作,如果pd tso慢的话,会造成kv节点内存升高,产生这样的日志么?
pd leader 选举:1. pd 落盘慢 2. 网络延迟高。 一般不会发生选举,如果发生非预期选举大概率是这两个原因。其实就是另外两个 pd 认为当前 pd leader 有问题。
对的 data 路径推荐用好点盘,比如 nvme。
我看pd日志里面它重新选举的原因似乎是说 fail to keepalive lease,原因是etcdserver: request timed out, waiting for the applied index took too long,这个您有什么头绪么
data盘这块我看了眼node exporter节点的io util,这个节点pd的data盘在系统盘上(绿色),db的缓存路径在另外一个盘上(蓝色),在有问题的区间里面,系统盘的利用率只到了20%左右,db的缓存盘倒是有80%,不知道这个有没有关系(系统盘和数据盘都是nvme固态,但性能确实不咋地)
你这个盘应该不是 nvme
之前问运维说给我挂的是…如果不是的话,体现出来系统盘的使用率是会更低么?还是说同样在20%的情况下,pd在我这个情况下实际上已经影响到了它的性能?
用 fio 测试下,在 follow 节点上:https://docs.pingcap.com/zh/tidb/stable/deploy-and-maintain-faq#如何用-fio-命令测试-tikv-实例的磁盘性能
回头尝试下,感谢
此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。