tidb 突然出现流量掉底,连接超时,持续抖动

【 TiDB 使用环境`】生产环境
【 TiDB 版本】v4.0.12
【遇到的问题】突然出现流量掉底,连接超时,持续抖动
【复现路径】扩容tikv问题未解决,有新业务接进来,大概 3000/s write
【问题现象及影响】

【附件】
tiup cluster display xxx

tidb 监控

麻烦各位大佬紧急看下

1 个赞

有oom吗?

1 个赞

机器负载都正常,有发现 leader突然掉底,heartbeat report 也出现异常

1 个赞

看图,可能是 insert 导致了热点或oom,造成qps下降。
看看有没有慢sql(在哪个时间点左右),写热点

1 个赞

不好意思,我没有描述清楚,这是tikv在扩容,内部在balance,确认了没有热点

1 个赞

检查下掉Leader的2个tikv节点的log 有没有重启搜索日志里Welcom关键字, 2个tikv的node exporter监控IO、网络情况

1 个赞

我试着重启了其中一个节点,掉底反而转移到其他 tikv 节点,现象是抖动更严重了

1 个赞

https://metricstool.pingcap.com/#backup-with-dev-tools 按这个把pd/tidb/tikv detail/overview/node exporter的监控导出下,要等所有面板展开

1 个赞

查看下日志,肯定某个节点有问题,导致转移时引起雪崩。

2 个赞

嗯嗯,我到公司搞下

1 个赞

拉取了最近6个小时的监控,到现在为止业务还没有恢复正常,持续抖动


tidb monitor.zip (4.3 MB)

1 个赞

挑了一台tikv机器,没有重启, leader 掉底

1 个赞

跟大佬们学习下

1 个赞

63这个节点掉leader时 性能很差,apply都要2分钟以上了,63节点的磁盘时什么类型,先看看能找到监控记录掉leader时的磁盘延迟吗?看看有 disk performance或node expoter监控吗。


1 个赞

/dev/sdb1 xfs 1.5T 724G 766G 49% /mnt/ssd/1




1 个赞

1 个赞

官方建议ext4文件系统,xfs有个什么延迟创建来着可能会影响性能

2 个赞

我尝试下,

1 个赞

这个有问题的节点,有几块硬件SSD?
如果有硬件故障,也会有这种表现…
可以排除一下看看

1 个赞