tiflash CPU占用高

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】
TIDB生产环境
【概述】 场景 + 问题概述
从2022年2月18日,16:30左右 CPU一直占用90%以上
【背景】 做过哪些操作
无特殊操作
【现象】 业务和数据库现象
1、系统CPU监控报警
2、停掉tiflash后,应用里报错
tiup cluster stop tidb-prod -R tiflash后
应用里报连上不tiflash,这里有疑问,tiflash下线后,会影响tidb集群么?

【 TiDB 版本】
V5.1.1
【附件】 相关日志及监控(https://metricstool.pingcap.com/)
tidb-qh-prod-Overview_2022-02-19T02_44_12.384Z.json (79.8 KB) tidb-qh-prod-TiFlash-Proxy-Details_2022-02-19T02_45_36.175Z.json (2.2 MB) tidb-qh-prod-TiFlash-Proxy-Summary_2022-02-19T02_48_09.123Z.json (399.9 KB) tidb-qh-prod-TiFlash-Summary_2022-02-19T02_47_14.555Z.json (1.3 MB) tidb-qh-prod-TiKV-Details_2022-02-19T02_49_37.937Z.json (18.2 MB)

tiflash.log.18.gz (37.6 MB) tiflash_stderr.log (5.4 KB)


若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

1 Like

今天 20.20.92.21 的 tiflash 节点, CPU 使用率还是居高不下么?

1 Like

是的,重启了节点和集群还是一样
目前暂时先停了

2 Likes

各个节点上的数据分布均衡不?

2 Likes

这个怎么看?

2 Likes

试试show table xxx regions

1 Like

1 Like

关于tiflash节点全挂掉后,sql 查询报错的问题已经找到,需要见下贴
自 v5.0 版本开始,新增了系统变量 tidb_allow_fallback_to_tikv ,用于决定是否在 TiFlash 查询失败时,自动将查询回退到 TiKV 尝试执行。在设置该参数时,需要考虑对 TiKV 造成的影响:

https://docs.pingcap.com/zh/tidb/v5.0/system-variables/#tidb_allow_fallback_to_tikv-从-v50-版本开始引入

4 Likes

通过 grafana 监控 TiKV Details - Cluster - region 可以看到 region 在 TiKV 各个节点的数量


我用的是三副本,目前看上去是一样的

修改参数以后,现在还有问题吗?

修改这个参数后,现在是正常的

2 Likes

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。