下线tiflash节点之后，残留大量extra-peer

peng-xin · 2020 年8 月 3 日 09:09

为提高效率，提问时请提供以下信息，问题描述清晰可优先响应。

【TiDB 版本】：v4.0.4
【问题描述】：下线tiflash节点之后，残留大量extra-peer，在进行reload操作时，会出现error evicting store leader from 172.16.116.153:20171, operation timed out after 5m0s的错误。

image1836×281 47.3 KB

image.png862×186 4.07 KB

有下面两个小疑问，想让老师帮忙看看
1.如何批量删除异常peer？
2.如何调整驱逐store leader的operation超时时间？

若提问为性能优化、故障排查类问题，请下载脚本运行。终端输出的打印结果，请务必全选并复制粘贴上传。

yilong · 2020 年8 月 3 日 09:22

反馈下pd-ctl 中完整的 store 信息
反馈pd-ctl 中 config show all 的完整信息，多谢。

peng-xin · 2020 年8 月 3 日 09:26

老师您好，详细信息在下面
config.txt (5.1 KB)
store.txt (3.2 KB)

peng-xin · 2020 年8 月 3 日 09:33

上面这三个都是tiflash的storeId，最开始的是631028这个id；手动下线之后，由于没有停止tiflash服务，导致它重新产生新的tiflash的store；后来在停了tiflash服务，并删除相应数据文件之后，由于没有删除/etc/systemd/system下的tiflash的service文件，导致服务重启，产生新的tiflash的store。

yilong · 2020 年8 月 3 日 09:36

好的，能否反馈下 config show all 的信息呢，多谢。

peng-xin · 2020 年8 月 3 日 09:37

老师您好，上面的图片编辑了，config文件就是config show all的内容

yilong · 2020 年8 月 3 日 09:42

请问，手动下线具体操作步骤是什么？

peng-xin · 2020 年8 月 3 日 09:47

使用官方文档中的下线步骤下线的，先使用tiup进行下线，但是很长时间没有反应，就使用方法二进行手动下线
https://pingcap.com/docs-cn/stable/scale-tidb-using-tiup/

yilong · 2020 年8 月 3 日 12:08

您好，和另一个帖子一样，先检查下placement rules，多谢

peng-xin · 2020 年8 月 4 日 02:35

placement rules之前已经通过下述命令清理完毕了

curl http://<pd_ip>:<pd_port>/pd/api/v1/config/rules/group/tiflash
curl -v -X DELETE http://<pd_ip>:<pd_port>/pd/api/v1/config/rule/tiflash/table-45-r

peng-xin · 2020 年8 月 4 日 02:56

extra-peer的问题，通过调整store limit和间段执行（原因是scheduler会暂停）tiup cluster reload
extra-peer已经下线完毕。

但是tikv滚动重启时，驱逐leader超时的问题还没有解决

来了老弟 · 2020 年8 月 4 日 13:29

system · 2022 年10 月 31 日 19:16

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。