TiKV无法启动

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:

【TiDB 版本】
v4.0.0
【问题描述】
tiup升级后一个节点无法正常启动

tiup cluster upgrade tidb-cluster  v5.0.0

当前集群状态

# tiup cluster display tidb-cluster
Starting component `cluster`: /root/.tiup/components/cluster/v1.4.1/tiup-cluster display tidb-cluster
Cluster type:       tidb
Cluster name:       tidb-cluster
Cluster version:    v4.0.0
SSH type:           builtin
Dashboard URL:      http://172.16.12.167:2379/dashboard
ID                   Role          Host           Ports        OS/Arch       Status    Data Dir                                Deploy Dir
--                   ----          ----           -----        -------       ------    --------                                ----------
172.16.12.186:9093   alertmanager  172.16.12.186  9093/9094    linux/x86_64  inactive  /home/tidb/tidb-data/alertmanager-9093  /home/tidb/tidb-deploy/alertmanager-9093
172.16.12.186:3000   grafana       172.16.12.186  3000         linux/x86_64  inactive  -                                       /home/tidb/tidb-deploy/grafana-3000
172.16.12.167:2379   pd            172.16.12.167  2379/2380    linux/x86_64  Up|L|UI   /home/tidb/tidb-data/pd-2379            /home/tidb/tidb-deploy/pd-2379
172.16.12.186:9090   prometheus    172.16.12.186  9090         linux/x86_64  inactive  /home/tidb/tidb-data/prometheus-9090    /home/tidb/tidb-deploy/prometheus-9090
172.16.12.186:4000   tidb          172.16.12.186  4000/10080   linux/x86_64  Up        -                                       /home/tidb/tidb-deploy/tidb-4000
172.16.12.166:20160  tikv          172.16.12.166  20160/20180  linux/x86_64  Up        /home/tidb/tidb-data/tikv-20160         /home/tidb/tidb-deploy/tikv-20160
172.16.12.167:20160  tikv          172.16.12.167  20160/20180  linux/x86_64  Up        /home/tidb/tidb-data                    /home/tidb/tidb-deploy
172.16.12.186:20160  tikv          172.16.12.186  20160/20180  linux/x86_64  Down      /home/tidb/tidb-data                    /home/tidb/tidb-deploy

Down节点日志报错如下


[2021/04/21 18:20:23.984 +08:00] [ERROR] [server.rs:862] ["failed to init io snooper"] [err_code=KV:Unknown] [err="\"IO snooper is not started due to not compiling with BCC\""]

完整日志
tikv.log.xz (348.5 KB)


若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

  1. 是升级完就发现这个节点无法启动么?还是升级之后过了一段时间发现这个节点有异常?
  2. 手动 start 这个节点可以正常起来么
  1. 是升级完就发现这个节点无法启动么?还是升级之后过了一段时间发现这个节点有异常?
    答:是在升级后(准确的说是升级过程中会重启tikv节点),其他节点可以正常重启。升级前节点均正常
  2. 手动 start 这个节点可以正常起来么
    答:手动试过,不可以。

这个异常的 tikv 节点是最后重启的是吧?另外两个正常的 TiKV 节点现在是已经升级到 v5.0.0 版本了的么

异常的 tikv 节点是最后重启的,其他两个节点已升级至5.0.0

./tikv-server -V
TiKV 
Release Version:   5.0.0
Edition:           Community
Git Commit Hash:   7706b9634bd901c9fe8dbe6a556025abbfd0793d
Git Commit Branch: heads/refs/tags/v5.0.0
UTC Build Time:    2021-04-07 05:00:23
Rust Version:      rustc 1.51.0-nightly (bc39d4d9c 2021-01-15)
Enable Features:   jemalloc mem-profiling portable sse protobuf-codec test-engines-rocksdb cloud-aws cloud-gcp
Profile:           dist_release

异常节点的tikv-server软件已正常下发。只是无法启动。

#  ip add |grep 172.16.12
    inet 172.16.12.186/23 brd 172.16.13.255 scope global noprefixroute dynamic eth0
[root@tidb-cluster-tidb ~]# cd /home/tidb/tidb-deploy/bin
[root@tidb-cluster-tidb bin]# ls
tikv-server  tikv-server.bak

好的,我们分析日志,有情况的话及时反馈

@YouCD 请帮忙查看 ls /home/tidb/tidb-data/space_placeholder_file -lh 的信息

信息如下:

172.16.12.186

# ip add |grep 172.16.12.
    inet 172.16.12.186/23 brd 172.16.13.255 scope global noprefixroute dynamic eth0
[root@tidb-cluster-tidb tidb-deploy]# ls /home/tidb/tidb-data/space_placeholder_file -lh 
-rw-r--r-- 1 tidb tidb 0 Apr 22 12:16 /home/tidb/tidb-data/space_placeholder_file

这个节点的磁盘剩余空间可以看下么

存储空间正常

# ip add |grep 172.16.12.
    inet 172.16.12.186/23 brd 172.16.13.255 scope global noprefixroute dynamic eth0
# df -Th
Filesystem     Type      Size  Used Avail Use% Mounted on
devtmpfs       devtmpfs  7.8G     0  7.8G   0% /dev
tmpfs          tmpfs     7.8G  600K  7.8G   1% /dev/shm
tmpfs          tmpfs     7.8G  841M  7.0G  11% /run
tmpfs          tmpfs     7.8G     0  7.8G   0% /sys/fs/cgroup
/dev/vda2      xfs       299G   51G  249G  17% /
/dev/vda1      ext4      976M  176M  734M  20% /boot
tmpfs          tmpfs     1.6G     0  1.6G   0% /run/user/1002

请确认之前是否使用的是 v4.0.0 且之前的 tikv 配置文件是什么样的

已经找到原因,应该是该节点文件系统有问题,感谢回复

请问是如何恢复的?

还没有修复。因为部署环境是Openstack环境,磁盘故障一时没有好的想法去修复。不行可以把故障节点直接下线。

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。