tikv日志内不断重启失败

newHE3DBer · 2021 年4 月 29 日 08:17

为提高效率，请提供以下信息，问题描述清晰能够更快得到解决：

【TiDB 版本】
v4.0.10
【问题描述】
tikv日志内不断重启失败

若提问为性能优化、故障排查类问题，请下载脚本运行。终端输出的打印结果，请务必全选并复制粘贴上传。

Lucien-卢西恩 · 2021 年4 月 29 日 11:04

麻烦确认一下，数据文件是否有丢失？需要提供一下详细的 tikv log 看一下

懂的都懂 · 2021 年4 月 29 日 11:42

麻烦确认一下 tikv 是否有重启，通过 welcome 字段进行过滤。

newHE3DBer · 2021 年4 月 29 日 11:55

yilong · 2021 年4 月 29 日 13:58

麻烦查看第一次出现报错的日志。
查看当时是否有关机很久的情况发生
如果是，可以尝试将region设置为tombstone恢复
https://docs.pingcap.com/zh/tidb/stable/tikv-control#设置一个-region-副本为-tombstone-状态

gengliqi-PingCAP · 2021 年4 月 30 日 02:27

麻烦把这台 TiKV 第一次 panic 的前后的日志都上传一下吧，方便我们定位原因和提供解决方法

hicqu-PingCAP · 2021 年4 月 30 日 02:32

同时麻烦对这个 TiKV 当前 data/snap 目录 ls -lh|grep 715975 并贴一下结果吧，thanks！

newHE3DBer · 2021 年4 月 30 日 05:40

该机器没有停过机

newHE3DBer · 2021 年4 月 30 日 05:42

newHE3DBer · 2021 年4 月 30 日 05:52

newHE3DBer · 2021 年4 月 30 日 05:59

日志太大了，而且因为不断重启生成了很多

newHE3DBer · 2021 年4 月 30 日 06:38

newHE3DBer · 2021 年4 月 30 日 06:43

yilong · 2021 年4 月 30 日 06:47

方便上传下完整的日志，不是截图吗？这样方便搜索查看，多谢。

newHE3DBer · 2021 年4 月 30 日 06:49

上传不了啊，显示超过了50M

newHE3DBer · 2021 年4 月 30 日 06:49

我这边的文件只有25M也上传不了

newHE3DBer · 2021 年4 月 30 日 06:56

tikv日志：
链接: https://pan.baidu.com/s/1Onf-C05ooVBd0vTFnqsJ_Q 提取码: ptm6 复制这段内容后打开百度网盘手机App，操作更方便哦

yilong · 2021 年4 月 30 日 07:34

多谢反馈。

看到在问题出现的初始阶段有以下告警
[2021/04/27 06:16:08.207 +08:00] [WARN] [server.rs:875] [“check: rocksdb-data-dir”] [err=“config fs: data-dir.rotation.get: “/dev/mapper/lvmvg1-ltidb” no device find in block”] [path=/xuegangtidb/tikv-20160]
请问使用的是 lvm 划分的空间吧，麻烦看下是不是底层 lvm 有问题了。
麻烦 tiup cluster display 集群当前状态，目前出问题的是哪个节点。

newHE3DBer · 2021 年4 月 30 日 07:55

使用什么命令查看lvm存在问题呢
出错的节点是node1：

gengliqi-PingCAP · 2021 年4 月 30 日 08:06

麻烦执行以下命令 find . -name “tikv.log*” |xargs grep “715975” 然后把文件上传一下吧，主要是需要看第一次 panic 之前的信息，后面不断 panic 重复的数据看不出原因。