缩容集群后,一台服务器容量不足,上面的2个节点经常显示disconnect

【 TiDB 使用环境】压测
【 TiDB 版本】v4.0.6
【复现路径】原来6个tikv节点,现在新上3个同一物理机的tikv节点扩容,然后把原来6个tikv节点缩容。缩容时出于性能考虑,把region-schedule-limit、leader-schedule-limit都设置为0,让region和leader不参与评分均衡。
【遇到的问题:问题现象及影响】
新节点所在物理机硬盘占用比预计的要高,磁盘占用达到95%以后出现其中两个节点频繁disconnect现象。现在在其他物理机上新增2个节点,region-schedule-limit、leader-schedule-limit都设置1500,现象依然没有改善。
【资源配置】

总共有6台机器,所有机器均为40C128G5T物理机。
10.58.100.152-20232.last.log.zip (1.3 MB)
10.58.100.152-20231.last.log.zip (1.5 MB)

建议使用 6.1.X 或者 6.5.X 来做压测…

压测也要参考官方文档提供的参考配置,混布有混布的要求和限制的

新上的同一物理机的3个tikv节点有做资源隔离吗?

固定不同的CPU,存储目录是同一个

混部署需要做资源隔离

实践中应该单盘单数据节点

image

tikv_servers:

  • host: 10.10.109.103
    port: 20160
    status_port: 20180
    deploy_dir: “/export/tikv1/tidb-deploy/tikv-20160”
    data_dir: “/export/tikv1/tidb-data/tikv-20160”
    log_dir: “/export/tikv1/tidb-deploy/tikv-20160/log”
    numa_node: “0”
    config:
    server.labels: { host: “tikv8” }
  • host: 10.10.109.103
    port: 20161
    status_port: 20181
    deploy_dir: “/export/tikv2/tidb-deploy/tikv-20161”
    data_dir: “/export/tikv2/tidb-data/tikv-20161”
    log_dir: “/export/tikv2/tidb-deploy/tikv-20161/log”
    numa_node: “1”
    config:
    server.labels: { host: “tikv8” }
  • host: 10.10.109.103
    port: 20162
    status_port: 20182
    deploy_dir: “/export/tikv3/tidb-deploy/tikv-20162”
    data_dir: “/export/tikv3/tidb-data/tikv-20162”
    log_dir: “/export/tikv3/tidb-deploy/tikv-20162/log”
    numa_node: “0”
    config:
    server.labels: { host: “tikv8” }
  • host: 10.10.109.103
    port: 20163
    status_port: 20183
    deploy_dir: “/export/tikv4/tidb-deploy/tikv-20163”
    data_dir: “/export/tikv4/tidb-data/tikv-20163”
    log_dir: “/export/tikv4/tidb-deploy/tikv-20163/log”
    numa_node: “1”
    config:
    server.labels: { host: “tikv8” }