v4.0.3 单机双实例tikv重启之后，leader region不均衡

lindoubled · 2020 年8 月 5 日 07:25

15:50分左右

5kbpers-PingCAP · 2020 年8 月 5 日 07:31

有可能是 reload 的 evict leader 的 scheduler 没有正常清理掉，再看下 pd scheduler 下面的监控？

lindoubled · 2020 年8 月 5 日 07:34

我看了下，没有evict leader scheduler

lindoubled · 2020 年8 月 5 日 07:48

问题重新描述一遍：

tidb 版本：

v4.0.4

1、在使用tiup reload之后，会造成leader region不均衡；重新用tiup restart 之后，leader region开始均衡

2、单机多实例，打上了label，压测的时候发现leader region不是很均衡；貌似hot region也不是太均衡

5kbpers-PingCAP · 2020 年8 月 5 日 07:50

下面有 filter target 和 filter source 的面板，麻烦也截一下

lindoubled · 2020 年8 月 5 日 07:51

5kbpers-PingCAP · 2020 年8 月 5 日 07:54

filter target 麻烦截全一点

5kbpers-PingCAP · 2020 年8 月 5 日 07:55

或者麻烦导一份完整的 pd 监控吧

lindoubled · 2020 年8 月 5 日 08:03

screencapture-10-59-105-70-3000-d-Q6RuHYIWk-gint-pd-2020-08-05-16_01_091920×15323 4.5 MB

lindoubled · 2020 年8 月 5 日 08:08

filter targe太多了：差不多就这样

rleungx · 2020 年8 月 5 日 08:09

filter target 有 balance leader 相关的吗

lindoubled · 2020 年8 月 5 日 08:11

没看到，应该是没有

rleungx · 2020 年8 月 5 日 08:18

pd-ctl config show all 的结果麻烦也贴一下吧

rleungx · 2020 年8 月 5 日 08:34

另外看到您这边有 tiflash，可以看下 pd-ctl config placement-rules show 的结果

lindoubled · 2020 年8 月 5 日 08:40

» config show
{
  "replication": {
    "enable-placement-rules": "true",
    "location-labels": "host",
    "max-replicas": 3,
    "strictly-match-label": "false"
  },
  "schedule": {
    "enable-cross-table-merge": "false",
    "enable-debug-metrics": "false",
    "enable-location-replacement": "true",
    "enable-make-up-replica": "true",
    "enable-one-way-merge": "false",
    "enable-remove-down-replica": "true",
    "enable-remove-extra-replica": "true",
    "enable-replace-offline-replica": "true",
    "high-space-ratio": 0.7,
    "hot-region-cache-hits-threshold": 3,
    "hot-region-schedule-limit": 64,
    "leader-schedule-limit": 16,
    "leader-schedule-policy": "count",
    "low-space-ratio": 0.8,
    "max-merge-region-keys": 200000,
    "max-merge-region-size": 20,
    "max-pending-peer-count": 16,
    "max-snapshot-count": 3,
    "max-store-down-time": "30m0s",
    "merge-schedule-limit": 8,
    "patrol-region-interval": "100ms",
    "region-schedule-limit": 2048,
    "replica-schedule-limit": 256,
    "scheduler-max-waiting-operator": 5,
    "split-merge-interval": "1h0m0s",
    "store-limit-mode": "manual",
    "tolerant-size-ratio": 0
  }
}

» config placement-rules show
[
  {
    "group_id": "pd",
    "id": "default",
    "start_key": "",
    "end_key": "",
    "role": "voter",
    "count": 3,
    "location_labels": [
      "host"
    ]
  }
]

rleungx · 2020 年8 月 5 日 08:51

请问您这是测试环境吗？

lindoubled · 2020 年8 月 5 日 09:05

目前是压测环境

rleungx · 2020 年8 月 5 日 09:51

是否可以使用 v4.0.2，目前推断是 v4.0.3 引入的修改导致 balance-leader 没有正常工作。

lindoubled · 2020 年8 月 5 日 09:52

可以使用

意思是v4.0.3就有这个问题么？

rleungx · 2020 年8 月 5 日 10:06

是的，建议测试的话可以先使用 v4.0.2