求教Tidb 诊断后续处理建议

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:4.0.8
  • 【问题描述】:使用了tidb dashboard的 Diagnosis Report,
    报告显示
    其中一个节点
    node-load virtual-memory-usage node 192.168.2.29:9100 74.9% < 70% warning the memory-usage is too high
    所有的kv节点
    threshold-check region-count tikv 192.168.2.27:20160 0.0.0.0:20180 241933.00 <= 20000 warning 192.168.2.27:20160 tikv has too many regions

我们的服务由1台manage, 3台(pd+db), 5台kv(单台12T存储空间, 三副本),
每台均为2*Xeon E5-2680 v3 + 64G内存

集群合计存储1500亿条数据左右,
目前除了tidb自身的组件外(dashboard)没有外部写入与读取, kv的磁盘io使用率不高 维持在2%以下, 但cpu使用率总是在500%左右

请问根据这样的诊断结果, 我们后面应该做怎样的调整
我的问题是,如果我希望能够消除这些warning,怎样调整处理是合适的
比如, tidb集群的配置优化? tidb集群节点配置升级, 比如 升内存, 升cpu? tidb集群节点增加

1、region 数量 可以通过扩容 tikv 节点的方式,使每个 store 上的 region 数量降低。扩容的方式直接官网搜“扩容”关键字即可。但建议先看一下监控面板pd 下面的 region health指标,查看是否不是有较多的 empty-regions,如果有较多的空region,建议直接在 asktug 或官网搜 “region merge”,来开启 region merge
2、内存的问题:建议优化 慢 SQL,如果正常使用,可以通过扩容 tikv 或 增加单台服务器内存的方式解决