TiKV宕机后重启,注册pd失败

【 TiDB 使用环境】
【概述】:场景 + 问题概述
有一台tikv宕机了,重启机器后,tikv开始OOM和无限重启

【背景】:做过哪些操作
一台tikv宕机,重启机器后,tikv起不来

【现象】:业务和数据库现象
tikv 宕机,dmesg 显示oom

【问题】:当前遇到的问题
tikv 无法提供服务

【业务影响】:
生产一台tikv无法工作,无限重启

【TiDB 版本】:
5.0.3

【附件】:

2 个赞

你的配置能补充下么?

2 个赞

image

然后现在又开始报这个错误了:
[ERROR] [server.rs:880] [“failed to init io snooper”] [err_code=KV:Unknown] [err=“"IO snooper is not started due to not compiling with BCC"”]

磁盘空间是够的
image

2 个赞

硬件配置呢?

2 个赞

9台机器,3台pd+tidb,3台tikv,3台tiflash,这3台tikv配置是8C/16G, 该集群正常跑了2个月左右,宕机原因我们大致清楚,当时有通过jdbc100并发写入,27节点tikv宕机重启,持续了近两个小时,服务器也直接宕机了, 把服务器起来后,tikv启动就开始报这个错了,现在没有数据写入了,27这个节点还是起不来,我们想先解决问题,先能够正常起起来

2 个赞

请把报错的完整日志发一份

2 个赞

tikv.tar.gz (18.4 MB)
这个是一个300M的日志

2 个赞

这个大概率是磁盘问题导致的。 https://docs.pingcap.com/zh/tidb/stable/tikv-control#设置一个-region-副本为-tombstone-状态可以尝试这个恢复

2 个赞

就是说可能是服务器停机,导致raft 状态机丢失的问题是吧,可以通过下面的命令,将region设置为tombstone,但是怎么能获取错误的region呢

2 个赞

在同一个文章里

3 个赞

好嘞我试下

2 个赞

image
好像不是这个问题。。。

1 个赞

故障节点如果已经完全不可用,是否可以强制下线,然后在扩容回集群来处理此问题,已达到快速恢复的目的

已经强制下线了,现在扩容回来报 store重复了没起来, 然后我现在对这个节点再强制下线了,我看了下pd中的数据没被删除啊,这个store还在



我手动删除pd,也不行,这样的话没法重新扩回来

%E5%9B%BE%E7%89%87 直接pd下线不掉故障的store吗

你看上面的截图,返回success,但是查的话还是在的,–force 只是把这个节点下了,但是pd中的store和region信息都还在,而且还删不了, tikv是3副本,现在强制下掉一个,机器数<副本数,所以pd没删这些元数据?

我看了下这个id=4的store,offline的,下面的region 2w多,但都不是leader,该怎么操作。现在集群只有两个tikv了。。。

改了端口在这个节点新起了一个tikv实例,pd这个脏数据怎么删除呢老师


image

直接pd-ctl下线掉不要的