tikv cpu 持续高涨

【 TiDB 使用环境】生产环境
【 TiDB 版本】v5.4.1
【遇到的问题:问题现象及影响】
从昨天下午开始,单个tikv cpu 居高不下,mach 到与写表任务相关性比较大:



查看机器CPU 情况,tikv 占用cpu 达到 600%左右,所有查询链接均不可链接,tidb 完全陷入瘫痪;
这些任务都是运行很久的历史任务了,region 切分导致的异常?而且问题只找 这台机器,很奇怪,今天已经发生第三次了;

临时解决: 重启单个 tikv
长期对策:

【资源配置】4 核 64G *3
【附件:截图/日志/监控】
如下是当时tikv 异常的时候记录的日志
logs.txt (47.3 KB)

配置有点低,一个节点跑tikv pd tidb才4个核心,3个加起来才12核,加起来还没我笔记本电脑性能好,我电脑还20逻辑核心呢

公司不给加,想要,人家不给

和你的老板说!

需要加资源
这个资源能跑成这样子

我觉得你不能在一辆需要加 95 的车上用柴油!
如果这个配置,那么你选择 mysql 对 运维的人友好一点。

我想知道你的pd leader是不是也在154上?

想办法升级一下配置把。

你这集群拓扑有点怪啊,你有3个pd,3个tidb,2个tikv和1个tiflash?你的tikv副本数多少啊?
你异常的是154哪个机器吗?pd和tidb和tiflash节点混部的机器?

这个怎么看,我看了pd 日志,没有找到关于leader 相关信息

是滴就是这个拓扑结构了,这个是 tidb 建议最小拓扑结构放在三台机器上的最最小拓扑结构 :clown_face:

那你异常的那台机器不是tiflash那台吗?看一下grafana中对应tiflash节点在对应时间点的情况

这个tiflash没有一张表,之前测试了一下,没有想要的效果就是没再用,里面的表全部删掉了

方便tiup cluster display 集群名看一下吗?

154这台上看起来没有部署tikv啊

那是我停了,cpu 太高,我停一会,重启就好了

这个集群名字你就叫他 渣渣辉吧

名字有敏感信息,不能给你

不是,我的意思是你执行下
tiup cluster display clustername
这条命令,把展示结果看一下,我还是觉得你只有2个tikv节点,有点怪
敏感信息可以打下码,但是ip列、节点列、状态列看一下

1 个赞

看上去是资源不足

资源不足,太寒酸了

4CPUs 估计都不是独占的 可能是虚拟机共享物理机资源的 这配置怎么能让Tidb自我感觉良好呢 感觉不好就时不时撒下娇耍点小脾气