集群中对某一张表的访问报TiKV server reports stale command错误

abcd · 2021 年7 月 23 日 01:36

为提高效率，请提供以下信息，问题描述清晰能够更快得到解决：
【 TiDB 使用环境】
4.0.13
【概述】场景+问题概述

【背景】做过哪些操作
没有做过任何操作，一直平稳运行的数据库突然对一张表的访问报错，手动执行语句百分百复现
集群状态完全正常

\r
尝试过重启集群，无法解决该问题
针对TiKV server reports stale command这一报错，在社区里没搜到任何类似案例

集群相关日志
链接: 百度网盘-链接不存在密码: ggs6
生产问题，烦请加急处理，谢谢

【现象】业务和数据库现象

【业务影响】

【TiDB 版本】

【附件】

若提问为性能优化、故障排查类问题，请下载脚本运行。终端输出的打印结果，请务必全选并复制粘贴上传。

abcd · 2021 年7 月 23 日 03:25

设置了max_execute_time为25秒，经过了一段时间，观察到dashboard界面有大量执行错误的语句，但手动执行可以成功

spc_monkey · 2021 年7 月 23 日 06:04

可能存在热点，建议搜官网有相关的内容

abcd · 2021 年7 月 23 日 06:22

该问题大约出现在昨日凌晨2点，通过观察tidb面板kverror可以验证这一点

然而在kv-details面板的error中，并没有观察到对应现象

以下是两个面板对应的监控导出，烦请帮忙分析一下原因，另外经过一段时间，目前集群状态好转，但主要想知道故障发生原因
test-cluster-TiKV-Details_2021-07-23T06_07_24.712Z.json.zip (1.4 MB)
test-cluster-TiDB_2021-07-23T06_11_39.097Z.json.zip (512.4 KB)

spc_monkey · 2021 年7 月 23 日 06:29

你的集群，上次调整这些参数了吗： rate-bytes-per-sec，你的IO 都很高了（我建议你换个好一点的盘）

abcd · 2021 年7 月 23 日 06:31

参数已经调整，盘也已经是ssd的了

spc_monkey · 2021 年7 月 23 日 06:44

1 、你的问题还是老问题，建议你看看上面提到的几个官网链接，尝试调整一下提到的参数
2、你可以尝试关闭一下 pd 调度，或把这个参数： max-snapshot-count。调小一些试试

system · 2022 年10 月 31 日 19:22

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。