TiKV server timeout[try again later]


也是很多

统计一下有多少

1 个赞


再非交互式下执行会报错

非交互模式下报错转义一下,给$前面都加上


2074个,和83 offline节点的数量一样

是不是这几个region得原因啊

你好,麻烦把之前 unsafe recover 的命令发一下,我们看看怎么恢复 另外就算恢复了,大部分数据也已经丢了。

./tikv-ctl --db /data/application/tidb/data/db unsafe-recover remove-fail-stores -s 291417,1247796 --all-regions

只是丢失这几个region的数据还是,其他节点的也丢了啊?

能先恢复也行

现在情况是有些 region 只在下线掉的节点上有副本。如果下线的那几台机器没办法起起来的话,这部分 region 中的数据就恢复不了了。 现在可以在活着的节点上重建这些region来恢复服务。麻烦提供一下 pd-ctl region 命令的全部结果。

有25M上传不了,老师我加下你QQ,方便吗?我的QQ:448562421

发邮箱吧

好的,老师我已经发到你邮箱了

老师,重建region需要多长时间啊?

recreate_region.sh (12.9 KB)

先确认一下这个脚本里列出的region确实所有副本都在坏掉的 tikv 上。

停掉其中一台 tikv,把脚本里 DB_PATH 改成停掉的 tikv 的 db 路径(datadir/db),PD_ADDR 改成 PD 的地址,最下面的 tikv-ctl 可执行文件的路径也确认一下是不是需要改成你的 tikv-ctl 的路径。确认无误后执行该脚本即可。

这么做等于是放弃这些 region 中的数据,让 tikv 恢复服务。

停掉哪一台,就在那一台上执行这个脚本吗?以tidb用户还是root用户执行啊?

对。用户可以写rocksdb就行,不确定的话就跟运行tikv的用户一样


正在重建,脚本执行完成需要做什么操作吗?