tidb集群流量异常

【 TiDB 使用环境】生产环境
【 TiDB 版本】v4.0.14


tidb角色的下载带宽基本跑满 tikv角色的上传带宽也跑到了3Gb 请问如何排查这种问题

查看有没有慢sql,或者看一下当前进程中有没有正在执行的大sql

当前进程中有没有正在执行的大sql 这个怎么看呀 我一直想知道 :joy:

这个命令 SHOW FULL processlist

还有一个是这个,但是我忘了那个版本支持不支持

SELECT * FROM information_schema.cluster_processlist
WHERE COMMAND != 'Sleep'

查了一下4.0没有那个系统表,可以查这个系统表,不过这个系统表只记录了当前节点上的进程,要登录每个tidb节点去查。(PS:cluster_processlist是记录了整个集群的进程,不用登录每个节点)

这个sql执行了显示的time时间最长的也只有18 慢sql也没有 以前出现过类似情况 但是只有一个tidb一个tikv节点流量异常 这次是三个 当时重启就解决了

tidb.log里搜expensive_query看看有没有

大佬你好 expensive_query和SELECT * FROM cluster_processlist 都看了 没有明显的慢sql和大sql(也可能是我没看出来吧)

查的是对应TiDB节点么?这个只能查到当前节点上的,所以不能连负载,要连具体的tidb地址,然后执行查询语句。那个表可以过滤一下command 值不等于 sleep

是的 每个节点我都查过了

看看有没有频繁的小sql
或者去节点上看看会不会有别的进程在运行

有慢SQL吧

1 个赞

:thinking:难道是leader频繁切换?不过切换应该和tidb没关系,并且tikv是上传下载都高才对。

看看grafana的这个监控。

tidb的下载和tikv的接收带宽都很高,说明是tikv向tidb发送结果集较大,查一下sql吧,感觉是有大量全表扫的sql。

1 个赞

诶 现在难点就是慢sql和大sql都没有看见导致流量大的sql语句…

感觉应该有慢sql走全表扫描,建议可以看一下

升级吧,太老了

看看dashboard的热力图呢

top SQL如果这个版本有也可以看下

1 个赞

3.38年没重启过 很稳定啊

1 个赞