集群中对某一张表的访问报TiKV server reports stale command错误

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】
4.0.13
【概述】场景+问题概述

【背景】做过哪些操作
没有做过任何操作,一直平稳运行的数据库突然对一张表的访问报错,手动执行语句百分百复现
集群状态完全正常



\r
尝试过重启集群,无法解决该问题
针对TiKV server reports stale command这一报错,在社区里没搜到任何类似案例

集群相关日志
链接: 百度网盘-链接不存在 密码: ggs6
生产问题,烦请加急处理,谢谢

【现象】业务和数据库现象

【业务影响】

【TiDB 版本】

【附件】

  1. TiUP Cluster Display 信息

  2. TiUP Cluster Edit Config 信息

  3. TiDB- Overview 监控

  • 对应模块日志(包含问题前后1小时日志)

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

设置了max_execute_time为25秒,经过了一段时间,观察到dashboard界面有大量执行错误的语句,但手动执行可以成功

可能存在热点,建议搜官网有相关的内容

该问题大约出现在昨日凌晨2点,通过观察tidb面板kverror可以验证这一点


然而在kv-details面板的error中,并没有观察到对应现象

以下是两个面板对应的监控导出,烦请帮忙分析一下原因,另外经过一段时间,目前集群状态好转,但主要想知道故障发生原因
test-cluster-TiKV-Details_2021-07-23T06_07_24.712Z.json.zip (1.4 MB)
test-cluster-TiDB_2021-07-23T06_11_39.097Z.json.zip (512.4 KB)

你的集群,上次调整这些参数了吗: rate-bytes-per-sec,你的IO 都很高了(我建议你换个好一点的盘)

参数已经调整,盘也已经是ssd的了

1 、你的问题还是老问题,建议你看看上面提到的 几个官网链接,尝试调整一下提到的参数
2、你可以尝试关闭一下 pd 调度,或把这个参数: max-snapshot-count。调小一些试试

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。