集群状态检测报错

xfworld · 2021 年12 月 28 日 07:17

最有效的办法应该就是增加 tikv 的节点…

或者能否把一些数据转移出去…减少数据规模

通过Regions 静默或者增加网络心跳处理延时的办法（还不能超过 leader 心跳周期和选举周期），需要一点点的调，比较麻烦；
如果你有足够的时间的话，可以尝试一下

Asiaye · 2021 年12 月 28 日 08:33

总服务器资源不变的情况下，增加tikv数量，也有用吗？

就比如总数据3T，分成5个600G的store 和 10个300G的store，后者会更加好？？？

xfworld · 2021 年12 月 28 日 08:35

最佳是每个节点保持在2W - 3W 个 region数量，一般磁盘大小为 2T 左右

节点过多也会导致 PD 的性能不足，这个是相互的，需要测试

Asiaye · 2021 年12 月 28 日 08:37

从经验上看，pd性能不足，再加pd能解决吗？

xfworld · 2021 年12 月 28 日 08:39

目前不能，PD 也是由 leader 来提供服务的，相当于是单节点服务

历年的 DevConn 上有很多这种案例，你也可以翻出来参考下

比如网易海量的Region 调优，知乎和 58同城的案例也有很有参加价值…

Asiaye · 2021 年12 月 28 日 08:45

好的，谢谢您。我先加几个看看。

system · 2022 年10 月 31 日 19:03

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。