【 TiDB 使用环境】生产环境
【 TiDB 版本】6.5.2
【复现路径】无
【遇到的问题:问题现象及影响】
生产环境接口响应慢,卡顿
【资源配置】
【附件:截图/日志/监控】
千兆的网络环境么
网络是万兆
看看服务器tcp连接数是不是满了
192.168.8.110是不是掉线了
几十 GB 的 store size,但是单个 tikv 节点却有 90w region 。这个肯定是有问题的。可以看看 pd 监控为啥这么多 region。空 region 或者调整过 region 大小?
然后报错大概率是因为 某个 tikv leader 掉底,触发 region 重新选举,短时间选举消息把 raftstore cpu 打满了。导致你 tikv 的报错。leader 掉底的原因可以详细排查下。
tidb-server和tikv混合部署的话,建议将tidb-server和tikv的内存严格限制,怀疑是内存争用导致tikv重启,然后产生了leader 迁移。
内存问题导致kv重启
能看下你的pd监控吗?这region数量多的离谱