缩容集群后，一台服务器容量不足，上面的2个节点经常显示disconnect

lizhuolin2020 · 2023 年3 月 4 日 09:36

【 TiDB 使用环境】压测
【 TiDB 版本】v4.0.6
【复现路径】原来6个tikv节点，现在新上3个同一物理机的tikv节点扩容，然后把原来6个tikv节点缩容。缩容时出于性能考虑，把region-schedule-limit、leader-schedule-limit都设置为0，让region和leader不参与评分均衡。
【遇到的问题：问题现象及影响】
新节点所在物理机硬盘占用比预计的要高，磁盘占用达到95%以后出现其中两个节点频繁disconnect现象。现在在其他物理机上新增2个节点，region-schedule-limit、leader-schedule-limit都设置1500，现象依然没有改善。
【资源配置】

总共有6台机器，所有机器均为40C128G5T物理机。
10.58.100.152-20232.last.log.zip (1.3 MB)
10.58.100.152-20231.last.log.zip (1.5 MB)

xfworld · 2023 年3 月 4 日 14:05

建议使用 6.1.X 或者 6.5.X 来做压测…

压测也要参考官方文档提供的参考配置，混布有混布的要求和限制的

tidb菜鸟一只 · 2023 年3 月 6 日 01:08

新上的同一物理机的3个tikv节点有做资源隔离吗？

lizhuolin2020 · 2023 年3 月 6 日 01:31

固定不同的CPU，存储目录是同一个

BraveChen · 2023 年3 月 6 日 01:32

混部署需要做资源隔离

xingzhenxiang · 2023 年3 月 6 日 01:44

实践中应该单盘单数据节点

tikv_servers:

host: 10.10.109.103
port: 20160
status_port: 20180
deploy_dir: “/export/tikv1/tidb-deploy/tikv-20160”
data_dir: “/export/tikv1/tidb-data/tikv-20160”
log_dir: “/export/tikv1/tidb-deploy/tikv-20160/log”
numa_node: “0”
config:
server.labels: { host: “tikv8” }

host: 10.10.109.103
port: 20161
status_port: 20181
deploy_dir: “/export/tikv2/tidb-deploy/tikv-20161”
data_dir: “/export/tikv2/tidb-data/tikv-20161”
log_dir: “/export/tikv2/tidb-deploy/tikv-20161/log”
numa_node: “1”
config:
server.labels: { host: “tikv8” }

host: 10.10.109.103
port: 20162
status_port: 20182
deploy_dir: “/export/tikv3/tidb-deploy/tikv-20162”
data_dir: “/export/tikv3/tidb-data/tikv-20162”
log_dir: “/export/tikv3/tidb-deploy/tikv-20162/log”
numa_node: “0”
config:
server.labels: { host: “tikv8” }

host: 10.10.109.103
port: 20163
status_port: 20183
deploy_dir: “/export/tikv4/tidb-deploy/tikv-20163”
data_dir: “/export/tikv4/tidb-data/tikv-20163”
log_dir: “/export/tikv4/tidb-deploy/tikv-20163/log”
numa_node: “1”
config:
server.labels: { host: “tikv8” }