下线tiflash节点之后,残留大量extra-peer

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:v4.0.4
  • 【问题描述】:下线tiflash节点之后,残留大量extra-peer,在进行reload操作时,会出现error evicting store leader from 172.16.116.153:20171, operation timed out after 5m0s的错误。


    有下面两个小疑问,想让老师帮忙看看
    1.如何批量删除异常peer?
    2.如何调整驱逐store leader的operation超时时间?

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

  1. 反馈下pd-ctl 中完整的 store 信息
  2. 反馈pd-ctl 中 config show all 的完整信息,多谢。

老师您好,详细信息在下面
config.txt (5.1 KB)
store.txt (3.2 KB)

image

上面这三个都是tiflash的storeId,最开始的是631028这个id;手动下线之后,由于没有停止tiflash服务,导致它重新产生新的tiflash的store;后来在停了tiflash服务,并删除相应数据文件之后,由于没有删除/etc/systemd/system下的tiflash的service文件,导致服务重启,产生新的tiflash的store。

好的,能否反馈下 config show all 的信息呢,多谢。

:joy:老师您好,上面的图片编辑了,config文件就是config show all的内容

  1. 请问,手动下线具体操作步骤是什么?

使用官方文档中的下线步骤下线的,先使用tiup进行下线,但是很长时间没有反应,就使用方法二进行手动下线
https://pingcap.com/docs-cn/stable/scale-tidb-using-tiup/

您好,和另一个帖子一样,先检查下placement rules,多谢

placement rules之前已经通过下述命令清理完毕了

curl http://<pd_ip>:<pd_port>/pd/api/v1/config/rules/group/tiflash
curl -v -X DELETE http://<pd_ip>:<pd_port>/pd/api/v1/config/rule/tiflash/table-45-r

extra-peer的问题,通过调整store limit和间段执行(原因是scheduler会暂停)tiup cluster reload
extra-peer已经下线完毕。

但是tikv滚动重启时,驱逐leader超时的问题还没有解决

:slightly_smiling_face:

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。