TiFlash 处于Down状态，第二弹！！！

郑旭东石家庄 · 2024 年6 月 2 日 02:28

【 TiDB 使用环境】生产环境
【 TiDB 版本】
【复现路径】
【遇到的问题：问题现象及影响】
6月1日下午忽然发现tiflash宕机了，是又宕机了。这已经是第二次了，第一次是下面的帖子
TiFlash 处于Down状态，如何启动和排查原因.

同样的问题又出现了
上次大多数回复是资源问题，是混合部署问题，吸取上次教训，将有问题的节点下线，不在把tiflash与tikv混合部署，但是由于资源有限还是把 tiflash 与 tidb server 放到一台服务器上，内存使用率使用了不到60% ，CPU使用不到10%

查看操作系统日志发现如下信息

截取17点附近的错误日志如下
error.log (262.1 KB)

观察错误日志发现在故障前出现了不少警告信息

会不会是把文件引入tiflash后，直接把tikv的表删掉了，从而引发的宕机。

这个时间与系统日志的被杀掉时间是相符的。

【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件：截图/日志/监控】

郑旭东石家庄 · 2024 年6 月 2 日 08:03

发现了大量core文件
通过gdb文件打开后跟踪发现

xfworld · 2024 年6 月 2 日 08:51

能否回顾下整个操作过程？看起来很乱…

然后最好详细描述下，这些操作之后和之前的一些问题…

郑旭东石家庄 · 2024 年6 月 2 日 09:29

这个是同一个集群

在5月份时192.168.55.24上的tiflash 宕机了，当时发过一个帖子，当时很多人都说是由于tikv和tiflash部署到一台服务器上，产生了资源竞争，从而产生问题，当时检查内存最高峰时达到87% 使用率。就按照大家的意思，将这台服务器上的tiflash下线，然后缩容了。然后到了6月1号，仅存的部署在192.168.55.25上的tiflash也宕机了。当时是开发人员反馈连不上数据库了。查看后发现问题。并没有人为操作什么。做的最多就是增删改查和 truncate操作。以前也是如此操作的。
然后就去查资源使用情况，发现CPU、内存均使用的不多。

然后去查系统日志发现在17点16分有被杀掉的消息

再去查tiflash下的日志，就是上面附件传的error文件，发现提示某一个SQL文件找不到了。在然后就发现在tiflash下发现了core文件记录，查了一下，发现是内存错误。、

这个就是事情的整个经过。

tidb菜鸟一只 · 2024 年6 月 3 日 01:26

你tiflash不和tikv争抢资源了，换到tidb server上了，那不一样争抢资源吗？。。。
你有几个tidb，多的话把这个机器上的tidb server先缩容掉，让tiflash独占一个机器看下。
另外应该不是你说的这种问题：
会不会是把文件引入tiflash后，直接把tikv的表删掉了，从而引发的宕机。

你现在是tiflash找不到他对应的表结构文件，属于tikv上还有，但是tiflash没了，这种情况
而不是tikv表没了，tiflash上有的这种情况

h5n1 · 2024 年6 月 3 日 01:37

这个集群是升级到7.5.1还是全新安装

郑旭东石家庄 · 2024 年6 月 3 日 01:37

全新安装的

郑旭东石家庄 · 2024 年6 月 3 日 01:40

现在的问题有两个，
第一个是如何判断是什么操作引起的这个问题，以后如何避免
第二个是如果资源竞争，应该资源使用率很高才会出现竞争的问题，可是现在CPU、内存都不高，应该不存在竞争问题。

tidb狂热爱好者 · 2024 年6 月 3 日 01:49

tidb也是内存大户 tiflash单独部署

郑旭东石家庄 · 2024 年6 月 3 日 01:50

当时出问题时内存才用了不到60%
我咋跟领导解析，如果它到了80%也好说点，现在内存使用这么低，没法说呀

托马斯滑板鞋 · 2024 年6 月 3 日 01:51

上系统日志，看上面的core解析文件，大概率是内存不足core dump被系统干掉了

郑旭东石家庄 · 2024 年6 月 3 日 01:52

我查看了系统检查平台，内存使用率不到60%

h5n1 · 2024 年6 月 3 日 01:52

select TABLE_SCHEMA,TABLE_NAME,TIDB_TABLE_ID from information_schema.tables where table_id=146376; 看下这个表你做过什么操作

pd-ctl region 7596696 再看下这个region状态

托马斯滑板鞋 · 2024 年6 月 3 日 01:54

/var/log/messages 里对应时间点有日志吗？

郑旭东石家庄 · 2024 年6 月 3 日 01:57

messages-20240602 (266.1 KB)
这个是系统日志有对应时间的

tidb狂热爱好者 · 2024 年6 月 3 日 01:57

非不安官方部署你买的阿里云本身也是一台虚拟机。tifash表如果坏了把tiflash 节点下线再上

郑旭东石家庄 · 2024 年6 月 3 日 01:57

本地实体机

郑旭东石家庄 · 2024 年6 月 3 日 01:58

郑旭东石家庄 · 2024 年6 月 3 日 01:59

按开发人员反馈，就是正常的增删改查，最多是有几个 truncate 操作

托马斯滑板鞋 · 2024 年6 月 3 日 02:08

tidb是什么版本？

TiFlash 处于Down状态， 第二弹 ！！！

TiFlash 处于Down状态，第二弹！！！