tikv batch put fail

Hacker_7yuXN6RZ · 2020 年3 月 24 日 07:30

是这样的，最开始 store1 的磁盘、cpu 和内存都是更大的，磁盘是 6T, 其他两台都是 3T。后来怀疑是均衡问题，就把 2 和 3 也加到了 6T，store1 的 cpu 和内存降到了和 2，3 一样
对，写入请求停止了
发现主要是对 store 1 降配后，三个节点的 region 数开始接近，如下：

regions1214×648 35.9 KB

yilong · 2020 年3 月 24 日 07:50

您好：
1. 如果当前业务写入停止了，没有太高的负载，可以考虑参考文档，加快region balance调度
https://pingcap.com/docs-cn/stable/reference/best-practices/pd-scheduling/#leaderregion-分布不均衡

可以酌情将 leader-schedule-limit 或 region-schedule-limit 调大一些。此外， max-pending-peer-count 以及 max-snapshot-count 限制也可以放宽

使用pd-ctl调整，调整前，记录当前值，加速均衡后，调整回原来的值。

   2. 等待均衡后，再观察下是否还会出现OOM的情况

   3. 并且根据通常的建议，硬盘不超过2T，如果是6T的盘，建议更高的内存配置。 可以同一个服务器多实例部署.

    4. 麻烦将tikv-detail, overview, pd等监控信息反馈，再检查一下，多谢

Hacker_7yuXN6RZ · 2020 年3 月 26 日 04:56

这是近一周的 details 麻烦看一下链接: https://pan.baidu.com/s/1Mat_dZX9TDgjNITqbuTlvA 提取码: 9ww7

yilong · 2020 年3 月 26 日 06:30

好的，感谢，会尽快回复

Hacker_7yuXN6RZ · 2020 年3 月 26 日 06:44

yilong · 2020 年3 月 26 日 07:53

可以看到大量的raw_batch_put

propose wait需要将近30s

write duration也非常高

所以等到均衡后，再写入测试，如果还有OOM问题，那时再发下监控信息，我们确认下是否是当前集群性能不足，需要扩容. 多谢

Hacker_7yuXN6RZ · 2020 年3 月 26 日 08:10

好的，感谢分析！想问下，虽然写入一直失败，节点 1 压力太大，为什么 raw_scan 基本没问题呢

yilong · 2020 年3 月 26 日 08:27