tikv,tiflash 导致cpu100%,重启状态为N/A,产生大量只有id,其他字段为空数据

【 TiDB 使用环境】生产环境
【 TiDB 版本】v6.5.2
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
Tikv TiFlash cpu百分之百,扩容后,发现部分表出现只有id,其他字段都是空的问题

cpu100%的图片:

重启后Tikv,tiflash时,状态为N/A,无法得知状态

查看system info 监控,发现网路和tcp有异常:

pd的错误日志:

然后进行扩容,重启之后,发现业务数据不正常,出现了大量只有id,其他数据全是空的情况,数据丢失了。如下所示:

【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】

请确认一下pd的日志,看看有无异常情况出现

集群宕机了,tikv和tiflash所在的节点,cpu全部100%了

数据复制进度完成了没有

7个pd?

其中6个pd都和tikv和tiflash放一起,这个部署方式是不推荐的。
pd容易抢不到cpu执行时间。
pd只建议和tidb放一起。

我现在感觉是pd就没起来。
所以整个集群就一直起不来。

日志打印出来看下具体情况

tikv tiflash 都建议独立部署。 tidb和pd可以混合部署。

tikv 和tiflash 分开吧,cpu打满了

这争抢资源了,tikv 和tiflash 混部署在一个主机了,还有为啥这么多pd,是什么架构设计啊

tikv 和tiflash 混部署在一个主机了争抢资源

检查一下PD是否存在异常

你这种拓扑方式是咋想的,122G那几台机器部署pd+tidb+tikv+tiflash。。。。还不如找2台机器单独部署tiflash,tidb和pd单独部署在60G内存机器,剩下的122G机器部署2个tikv呢。。。。
tiflash很容易占用全服务器的cpu,这样的话万一你的pd+leader也在这台机器上,很可能导致pd挂死。。。。
你现在启动连pd都起不来,tikv和tiflash肯定起不来了。。。你可以试试单独启动pd看能起来不。。。

TiKV 与 TiFlash 没有做资源隔离, 然后 Region 又大量分布在这6台机器上,导致 TP 和 AP 全面资源竞争。大概率这个是主因吧

你这个扩容主要扩了什么东西?扩容前,cpu 使用是否正常?业务是否正常?数据是否存在问题?另外,能不能从日志看出报错情况?

当务之急是尽快排查清楚数据影响范围。数据是否还有备份,是否需要恢复,该如何恢复。后续建议把 TiKV 与 TiFlask 分开。建议遵循官方的部署建议。

这个部署拓扑结构一言难尽,现在扩容后重启后,数据库正常了,数据丢失,正在补数据,后续需要赶紧调整部署架构了。目前运维正在查找问题原因,事故影响范围很大 :face_exhaling:

问题描述上面贴了pd 的错误日志,出问题的时间点,有大量的错误日志

现在就有一个地方非常好奇,为啥tidb底层数据会丢失,表里面的数据只有id,其他的字段都为空,现在没有合理的解释,也没有搜索到

把tiflash replica 置为0,再查,看看数据还在不

你把业务的sql手工放到tidb-server上执行下,看看会发生这种情况吗?