【 TiDB 使用环境`】生产环境
【 TiDB 版本】v4.0.12
【遇到的问题】突然出现流量掉底,连接超时,持续抖动
【复现路径】扩容tikv问题未解决,有新业务接进来,大概 3000/s write
【问题现象及影响】
【附件】
tiup cluster display xxx
tidb
监控
麻烦各位大佬紧急看下
【 TiDB 使用环境`】生产环境
【 TiDB 版本】v4.0.12
【遇到的问题】突然出现流量掉底,连接超时,持续抖动
【复现路径】扩容tikv问题未解决,有新业务接进来,大概 3000/s write
【问题现象及影响】
【附件】
tiup cluster display xxx
tidb
监控
麻烦各位大佬紧急看下
有oom吗?
看图,可能是 insert 导致了热点或oom,造成qps下降。
看看有没有慢sql(在哪个时间点左右),写热点
不好意思,我没有描述清楚,这是tikv
在扩容,内部在balance
,确认了没有热点
检查下掉Leader的2个tikv节点的log 有没有重启搜索日志里Welcom关键字, 2个tikv的node exporter监控IO、网络情况
我试着重启了其中一个节点,掉底反而转移到其他 tikv 节点,现象是抖动更严重了
https://metricstool.pingcap.com/#backup-with-dev-tools 按这个把pd/tidb/tikv detail/overview/node exporter的监控导出下,要等所有面板展开
查看下日志,肯定某个节点有问题,导致转移时引起雪崩。
嗯嗯,我到公司搞下
跟大佬们学习下
63这个节点掉leader时 性能很差,apply都要2分钟以上了,63节点的磁盘时什么类型,先看看能找到监控记录掉leader时的磁盘延迟吗?看看有 disk performance或node expoter监控吗。
官方建议ext4文件系统,xfs有个什么延迟创建来着可能会影响性能
我尝试下,
这个有问题的节点,有几块硬件SSD?
如果有硬件故障,也会有这种表现…
可以排除一下看看