集群短时间内多个tikv节点异常FATAL报错后重启

Zhang_Zhi · 2023 年5 月 29 日 03:26

【 TiDB 使用环境】生产环境，3tidb，3pd，8tikv
【 TiDB 版本】v4.0.11
【复现路径】故障时无特殊操作
【遇到的问题：问题现象及影响】
读写超时，响应慢
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面

【附件：截图/日志/监控】
第一台tikv发生FATAL报错的日志截图

8个tikv，共有4台出现这个FATAL报错。

出现报错的时间节点分别为
[2023/05/28 18:57:50.251 +08:00]
[2023/05/28 18:57:51.442 +08:00]
[2023/05/28 18:59:46.938 +08:00]
[2023/05/28 19:00:38.893 +08:00]

zhanggame1 · 2023 年5 月 29 日 03:32

提示索引的错误，重建下试试

Zhang_Zhi · 2023 年5 月 29 日 06:11

并没看到哪个索引错误阿

tidb菜鸟一只 · 2023 年5 月 29 日 06:30

https://github.com/pingcap/tidb/pull/22359，不是这个bug吧？一般 index out of range 都是触发非正常情况，代码连异常都没正确返回啊。。。

Zhang_Zhi · 2023 年5 月 29 日 07:33

页面打开404

你说的是这个吗？
但这个是4.0.11版本的 Release Notes，我当前版本就是4.0.11

Zhang_Zhi · 2023 年5 月 30 日 02:38

有什么解决思路吗？或者获得更多报错信息的方法。

huhaifeng · 2023 年6 月 2 日 02:19

这里的 index 是数组越界了，不是索引问题；
至于你说的 tidb_rowid 的那个错误，是 tidb 的问题，不是 tikv 的；所以这两个不是一个事情；

tidb 有好多 index out of range，所以这个问题基本随缘；如果经常碰到，可以考虑升级

Zhang_Zhi · 2023 年6 月 2 日 07:44

目前也不知道这种数组越界在哪个版本修复了，升级到5.0的一个稳定版本？

h5n1 · 2023 年6 月 5 日 07:18

https://github.com/tikv/tikv/issues/11940 看上去像这个bug

redgame · 2023 年6 月 6 日 23:22

重建索引试下呢