tikv异常重启后,集群响应时间高

【 TiDB 使用环境】生产环境
【 TiDB 版本】6.1.2
【复现路径】tikv异常自动重启,之后响应时间就很高,重启过整个集群,依然没有恢复
【遇到的问题:问题现象及影响】响应时间高,影响业务
【附件:截图/日志/监控】




1 个赞

重启之前的报错:

看日志报错主要问题还是集中在 IO ERROR,应该不是数据库问题,IO 的 latency 可以排查一下,可以通过 iostat 或者 nodeexporter 的监控一下 diskperformance 监控确认一下。

1 个赞

已经把异常节点下线了,rt也没恢复

看看dashboard的top sql,如果有消耗cpu高的,也可以定位到具体的tikv上消耗高的SQL