tikv io剧增

【 TiDB 使用环境】生产环境
【 TiDB 版本】4.0.12
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
【资源配置】
【附件:截图/日志/监控】

有没有大佬救救小弟,线上部署的tidb4.0.12版本,会出现tikv cpu打满,打满之后所有sql均运行缓慢 系统无法使用,然后将该台机子下了 之后数据库就正常使用。这个情况平均每过两个月就会出现一次,有没有大佬帮忙看看监控 排查下 每次出现问题 所有sql都变成慢sql想从慢sql着手 也无法查看到具体sql
tidb-dwgl-TiKV-Details-1682480684745.json (1.7 MB)

  1. 集群拓扑 相关日志
  2. 有没有定时任务
  3. io剧增还是cpu打满?是所有的tikv节点cpu都打满还是只有一个?
  4. 慢sql 可以用pt-query-digst 分析下问题时间段的慢日志

多少个tikv节点,是其中一个会出现问题,出现问题后问题节点下线问题就能缓解?

之前4个kv节点 分别是16c32g 由于去年已经开始发生这个问题,原本以为是磁盘问题, 后来就将他们下线了,现在3个节点,今天再次出现了,给这台有问题机器下线,等一会后业务恢复了

目前在排查慢sql 但是看不出来,因为把慢的sql取出来重跑并不慢,没有定时任务,3pd 3tidb 3tikv(之前4台后来下了一台)


tidb和pd同机部署

  1. 慢sql 可以用pt-query-digst 分析下问题时间段的慢日志,优先搞一下前几条
  2. 你都三个节点了,还下掉一个节点。。。
    神奇的是,业务访问不变慢,反而还恢复了。。