tiflash 表查询提示9012 tiflash server timeout

【 TiDB 使用环境】Poc
【 TiDB 版本】6.5.3
【复现路径】单副本的环境, 同时scale in 了一个tikv节点, 我采用recreateion regions 的方式 实现了 有损数据恢复. 但是tiflash出现了问题.
我的处理构成主要如下:

【遇到的问题:问题现象及影响】部分tilfash表无法查询结果, 提示time out 同时部分表是可以正常查询的
【资源配置】鲲鹏920 48c *2 512G内存 四台服务器 16个tikv节点3个tiflash节点
【附件:截图/日志/监控】
[root@clickhouse1 log]# pd-ctl store |grep ‘“id”:’
“id”: 1,
“id”: 226277,
“id”: 258382,
“id”: 258385,
“id”: 258496,
“id”: 10973513,
“id”: 2,
“id”: 226275,
“id”: 226276,
“id”: 226278,
“id”: 258383,
“id”: 258498,
“id”: 258899,
“id”: 258495,
“id”: 258898,
“id”: 91,
“id”: 92,
“id”: 417651984,
[root@clickhouse1 log]# tail -f tiflash_tikv.log
[2023/09/18 11:26:20.396 +08:00] [ERROR] [peer.rs:5243] [“failed to send extra message”] [err_code=KV:Raftstore:Transport] [err=Transport(Disconnected)] [target=“id: 127411950 store_id: 258384”] [peer_id=376178658] [region_id=127411947] [type=MsgRegionWakeUp]
[2023/09/18 11:26:20.430 +08:00] [ERROR] [peer.rs:5243] [“failed to send extra message”] [err_code=KV:Raftstore:Transport] [err=Transport(Disconnected)] [target=“id: 107688236 store_id: 258384”] [peer_id=168415546] [region_id=107688233] [type=MsgRegionWakeUp]
[2023/09/18 11:26:20.430 +08:00] [ERROR] [peer.rs:5243] [“failed to send extra message”] [err_code=KV:Raftstore:Transport] [err=Transport(Disconnected)] [target=“id: 127406273 store_id: 258384”] [peer_id=171540724] [region_id=127406270] [type=MsgRegionWakeUp]
[2023/09/18 11:26:21.348 +08:00] [ERROR] [peer.rs:5243] [“failed to send extra message”] [err_code=KV:Raftstore:Transport] [err=Transport(Disconnected)] [target=“id: 107690395 store_id: 258384”] [peer_id=376130630] [region_id=107690392] [type=MsgRegionWakeUp]
[2023/09/18 11:26:21.358 +08:00] [ERROR] [peer.rs:5243] [“failed to send extra message”] [err_code=KV:Raftstore:Transport] [err=Transport(Disconnected)] [target=“id: 127505822 store_id: 258384”] [peer_id=171705796] [region_id=127505684] [type=MsgRegionWakeUp]
[2023/09/18 11:26:21.396 +08:00] [ERROR] [peer.rs:5243] [“failed to send extra message”] [err_code=KV:Raftstore:Transport] [err=Transport(Disconnected)] [target=“id: 127447839 store_id: 258384”] [peer_id=145503922] [region_id=127446955] [type=MsgRegionWakeUp]

部分tiflash 是没问题的. 比如我这个 2023年后缀的会报错


错误信息为:

但是同样的 2022年的就没问题. 很快就可以查询出接过来.

tiup cluster display tidb-xxx看下tiflash节点都在线吗?

都在线. 部分表是可以查询的.

这肯定丢了一个节点的数据啊…
相关表重新同步下tiflash吧。。

1 个赞

tiflash副本设置为0,然后再设置为原来的副本数可不可以

1 个赞

不行, 还是相同的错误. 计划将tiflash全部收缩掉再试试…

一个节点疯狂报错, 无法同步. 早上十点 到现在一点变化都没有.

测试环境还是生产环境?测试环境直接全部铲掉重装用备份恢复

那你直接指定都用tikv查询,然后查2022年的数据看看,是不是直接2022年的tikv源数据已经异常了,所以tiflash才无法查询。。。

tikv 可以查询

那你直接把2022这个表alter table set tiflash replica 0,之后再改成alter table set tiflash replica 1,然后通过tiflash再查询下。。。