- 官网搜下 pd-ctl 的使用,查看下 leader 相关调度配置,是不是有将该节点进行下线,或者 leader weight 调为 0 等情况
编译 PD Control 多次总是失败,放弃了。并没有改过配置,都是默认配置。
这里下载的都是源码包呀,不得编译吗
编译报什么错误?正常你用 make 编译 pd-server 也会直接编译 pd-ctl
leader并没有下限,leader_weight都是1,但是60.110上面的确一个leader没有
我按照文档下载这个进行编译。
- 查看下这个 tikv 的状态,是否进入了 offline
pd-ctl 里执行 scheduler show 看一下结果,是否有 evict-leader-scheduler 的记录.
https://pingcap.com/docs-cn/v3.0/reference/tools/pd-control/#示例
是因为 evict-leader-scheduler-4
导致的。 可以手动删除这个调度器 scheduler remove evict-leader-scheduler-4
另外,集群是怎么部署的,执行过 rolling update 吗?
pd-ctl 里执行这个就可以了 scheduler remove evict-leader-scheduler-4 具体可以看上面发的文档
ansible部署的3.0.1后来升级到3.0.2这个过程中执行了rolling update
谢谢,
rolling update 的过程顺利吗,有没有什么报错,中间有没有什么中断?
rolling update 的时候,ansible 会先添加调度器,将 leader 迁移走,之后将region迁移走才能下掉节点。这个问题是因为 rolling update 完成后, ansible 因为未知原因没有将 evict-leader-scheduler-<StoreID>
调度器移除导致。
我看文档上说systemd 参数用excessive_rolling_update.yml升级,用这个失败,又用的rolling update。rolling update很顺利。