下线一台tikv,过了好多天还是无法下线

使用缩容命令

/home/tidb/tidb-ansible/resources/bin/pd-ctl -u “http://172.16.10.1:2379” store delete 4

使用命令十几天了

/home/tidb4/tidb-ansible/resources/bin/pd-ctl -u “http://172.16.10.1:2379"” store 4

查看状态仍然是Offline

控制台观察,normal stores确实是正常状态,一台已经不再了,但是Offline Stores一直都是1

您好:

     1. 请使用pd-ctl 反馈当前store 和 member 的信息, config show all  反馈当前配置信息,多谢
     2. 麻烦反馈inventory.ini中 tikv配置信息

config.txt (6.2 KB)

内容太多,我以文件的形式上传

请问,您反馈的是所有的store信息吗? 当前store只剩一个了? 那他就没法下线了。 你要是不需要了,直接停止集群就好了。

并不是,只给了当前的一个store,我重新给一份

config.txt (9.0 KB)

  1. 请问,您是tiup测试安装的4.0rc版本吗? tikv 缩小节点,balance 不动 可以参考下这个帖子,麻烦反馈下pd的监控信息,tikv.log 日志,
  2. gdb -batch -ex “thread apply all bt” -ex “info threads” /xxx/xx/tikv-server tikv-server_pid &> /tmp/gdbtikv.log /xxx/xx/tikv-server请替换为安装目录/bin/tikv-server 路径 tikv-server_pid请替换为ps -ef查看的tikvserver pid多谢

1.确实是4.0rc,不过是用 Ansible 安装的

pd监控信息



tikv.log
tikv.log (99.9 KB)

2.执行gdb -batch -ex “thread apply all bt” -ex “info threads” /xxx/xx/tikv-server tikv-server_pid 报错

Excess command line arguments ignored. (bt” …)
apply: 没有那个文件或目录.
/home/tidb/all: 没有那个文件或目录.
Undefined command: “”. Try “help”.
Undefined command: “”. Try “help”.

请尝试在中控机安装目录/conf目录的tidb.yml 修改参数值为0,注意对齐。 之后滚动重启tidb和tikv,观察能否下线成功,多谢

ansible-playbook rolling_update.yml -t tidb

ansible-playbook rolling_update.yml -t tikv

已修改,观察状态还没下线成功,是需要一定的时间嘛

  1. 请反馈下这个下线节点的tikv.log
  2. 请反馈下tidb.log 重启后,日志里是否参数已经修改成功
  3. pd-ctl查看store里 region数量有减少吗?

tikv.log

tikv.log (187.9 KB)

tidb.log中查看 已经生效

pd-ctl查看region_count数量 对比前面几天,还增加了几十

麻烦贴一下 PD 面板里面 scheduler 和 operator 的监控






从监控看,PD 的调度器应该没有运行(通过 scheduler is running 的监控以及 *checker 的监控可以看到),还请麻烦提供一下 PD 的 log

提供了一下最近的pd.log

pd.log (208.2 KB)

有完整的吗?从 PD 启动后开始的 log

文件太大了,我使用百度网盘上传

链接: https://pan.baidu.com/s/1WuJ59pb-HaiLIYAqm74bqA 提取码: hgef

@rleungx

请问一共有几个 PD?

建议可以重启 PD 试试。rc 版本在 leader 发生重新选举后(从日志上看,应该是盘卡了一下导致 leader 重新选举),如果原 leader 再次成为 leader 就会导致无法调度,下个版本已经修复。

1 个赞

好,目前就一个pd,需要怎么样才可以避免停止服务的情况下重新启动pd,还有下个版本大概什么时候可以发布 @rleungx