SHOW stats_healthy 无数据,导致tidb节点 cpu 飙升,执行sql慢

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】6.5.2
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】

sql执行超慢,
执行
SHOW stats_healthy 无数据返回
重启pd 跟tidb server节点才恢复

请问什么情况下 会导致这种情况

这是tidb server不可用的warn 日志

3个pd,2个单独部署,1个pd跟tiflash部署在一台机器,机器cpu 30%, 内存50%
tidbserver节点单独部署

1 个赞

表的个数和分区个数是不是很多?再看下内存增长

你的部署拓扑有嘛?
盲猜是混布。pd可能没抢到cpu。

有一个pd 跟tilash混部, 但是那台机器的cpu 都在30%多左右,内存在50%左右

表的个数是不少,分区没有用
内存也是跟着涨的

看出来pd 一般都是跟tidb混部,跟tikv 和tiflash 总是各种抢占的问题

tiflash最好不要和任何节点混布,它跑起来需要耗费大量的cpu的,有可能直接把cpu耗完,导致混布的其他节点出现无法预期的问题。
你这cpu利用率都到100%了。。。。

tiflash混部导致的吧感觉,跑一些计算语句会吃满,之前慢sql导致tiflash直接起飞,啥SQL都跑不动了

表的个数和分区个数是不是很多?再看下内存增长

截图是tidb server的机器, 3个pd, 2个单独部署,其中一个 pd机器是混部署,他的cpu 在30%左右

tidb-server有几个节点,就1个吗?

https://docs.pingcap.com/zh/tidb/stable/release-6.5.8#错误修复

  • 缓解当要处理的表的数量或表的分区数量过多时,TiDB 节点 OOM 的问题 #50077 @zimulala

表数量过多,考虑一下升小版本,要不就根据table_id,自己查mysql库下的基表看信息。

PD里面的元数据出问题了

有两个

两个tidb-server都没法返回SHOW stats_healthy 结果?