store offline长时间不转成墓碑

林先森cC · 2022 年1 月 5 日 08:23

INFORMATION_SCHEMA

KS贺大伟 · 2022 年1 月 5 日 08:30

果然有region，问题是他们为什么不自己主动remove呢？？
我先手动remove一下

KS贺大伟 · 2022 年1 月 5 日 08:47

手动清理异常的region在store 5上的down peer之后，store 5终于tombstone
region store 5这个信息不准确，造成干扰【吐槽一下】

林先森cC · 2022 年1 月 5 日 09:06

哈哈哈有时候会这鸭子清理前最好先查下这些没被清理的region_id的副本状态
select * from TIKV_REGION_PEERS where region_id in(select region_id from TIKV_REGION_PEERS where store_id = 5);
可以看到region STATUS是不是在pending 是否是三副本是否都有leader 防止只有两副本的被你直接清理掉造成region不可用

duzq · 2022 年1 月 5 日 09:17

这个集群应该是历史上有过非正常下线操作吧，否则一般 region 和 region store 数据应该是一致的。

KS贺大伟 · 2022 年1 月 6 日 09:53

是的，这个集群曾经出过问题

dbaspace · 2022 年1 月 7 日 14:45

之前遇到过，先给集群扩容下存储，存储不平衡会影响下线速度。你那集群存在REGION 副本数丢失或者REGION 没有LEADR
要彻底修复集群异常：估计整个集群TIKV都得重新上线下线

KS贺大伟 · 2022 年1 月 10 日 03:30

借这个帖子继续咨询，发现集群（V4.0.14）下线遇到两个问题：

问题一

image2148×984 358 KB

剩余一个region没有因为下线tikv而迁移，查询store的region信息和region的信息，这个region
有一个down peer，然后我主动remove peer，发现没有生效，去region的leader所在的tikv上查看日志，发现检索三天的日志都没有发现这个region的任何信息，其他副本所在的store的日志中也没有什么任何信息

image2148×2012 699 KB
问题二
另外一个集群（v4.0.14）下线tikv，发现剩余两个region无法完成下线

image2750×1096 498 KB

有问题的region信息如下：

image2216×1840 708 KB

不知道如何处理

林先森cC · 2022 年1 月 10 日 06:01

建议你新开个帖子关注度较高没下线成功的region 可以根据region_id在 pd leader节点的日志看下有没有啥调度失败的日志
或者看下tiup ctl pd -u http://pd_ip:pd_port -i
» operator show
看下正在调度的信息有没有这个region

顺便看下库里TIKV_REGION_PEERS和TIKV_REGION_STATUS表里没下线成功的region_id的相关信息

KS贺大伟 · 2022 年1 月 10 日 06:03

好的，谢谢

KS贺大伟 · 2022 年1 月 10 日 06:10

新帖子：store offline异常

dbaspace · 2022 年1 月 10 日 06:13

建议扩下存储，或者把存储容忍度调整下

KS贺大伟 · 2022 年1 月 10 日 06:16

不认为是扩容可以解决问题，因为我查看了tikv的日志，已经不能正确的执行删除和添加peer的操作了，从日志中看leader已经选不出来了。

KS贺大伟 · 2022 年1 月 10 日 06:16

调整存储容忍度是什么意思？

dbaspace · 2022 年1 月 10 日 06:34

问题2应该要调整下tolerant-size-ratio 这个参数值，LOWSPACE先去掉，还是认为你存储不够导致的
问题1应该是你当时集群异常引起的，数据分裂引起的，之前他们给处理，找到节点后对应的删除CACHE的，这个建议你跟官方确认下，对于无法下线的，我是那么操作(之前出过异常就是各种操作:重启TIKV/删除region的缓存，转移LEADER等等)
仅供参考：https://blog.csdn.net/weixin_36135773/article/details/116274916

system · 2022 年10 月 31 日 19:25

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。