集群状态检测报错

最有效的办法应该就是增加 tikv 的节点…

或者能否把一些数据转移出去…减少数据规模

通过Regions 静默或者增加 网络心跳处理延时的办法(还不能超过 leader 心跳周期 和 选举周期),需要一点点的调,比较麻烦;
如果你有足够的时间的话,可以尝试一下

总服务器资源不变的情况下,增加tikv数量,也有用吗?

就比如总数据3T,分成5个600G的store 和 10个300G的store,后者会更加好???

最佳是每个节点保持在2W - 3W 个 region数量,一般磁盘大小为 2T 左右

节点过多也会导致 PD 的性能不足,这个是相互的,需要测试

从经验上看,pd性能不足,再加pd能解决吗?

目前不能,PD 也是由 leader 来提供服务的,相当于是单节点服务

历年的 DevConn 上有很多这种案例,你也可以翻出来参考下

比如网易海量的Region 调优, 知乎 和 58同城的案例也有很有参加价值…

好的,谢谢您。我先加几个看看。

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。