郑旭东石家庄
(Ti D Ber Xh Hfy Sc H)
1
【 TiDB 使用环境】生产环境
【 TiDB 版本】
【复现路径】
【遇到的问题:问题现象及影响】
6月1日下午忽然发现tiflash宕机了,是又宕机了。这已经是第二次了 ,第一次是 下面的帖子
TiFlash 处于Down状态,如何启动和排查原因.
同样的问题又出现了
上次大多数回复是资源问题,是混合部署问题,吸取上次教训,将有问题的节点 下线 ,不在把tiflash与tikv混合部署,但是由于资源有限还是把 tiflash 与 tidb server 放到一台服务器上,内存使用率使用了不到60% ,CPU使用不到10%
查看操作系统日志发现如下信息
截取17点附近的错误日志如下
error.log (262.1 KB)
观察错误日志发现在故障前出现了不少警告信息
会不会是 把文件引入tiflash后,直接把tikv的表删掉了,从而引发的宕机。
这个时间与系统日志的被杀掉时间是相符的。
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】
1 个赞
郑旭东石家庄
(Ti D Ber Xh Hfy Sc H)
2
发现了大量core文件
通过gdb文件打开后跟踪发现
xfworld
(魔幻之翼)
3
能否回顾下整个操作过程? 看起来很乱…
然后最好详细描述下,这些操作之后和之前的一些问题…
郑旭东石家庄
(Ti D Ber Xh Hfy Sc H)
4
这个是同一个集群
在5月份时192.168.55.24上的tiflash 宕机了,当时发过一个帖子 ,当时很多人都说是由于tikv和tiflash部署到一台服务器上,产生了资源竞争 ,从而产生问题 , 当时检查内存最高峰时达到87% 使用率。就按照大家的意思,将这台服务器上的tiflash下线,然后缩容了 。然后到了6月1号,仅存的部署在192.168.55.25上的tiflash也宕机了 。当时是开发人员反馈连不上数据库了。查看后发现问题。并没有人为操作什么 。做的最多就是增删改查 和 truncate操作。以前也是如此操作的。
然后就去查资源使用情况,发现CPU、内存均使用的不多 。
然后去查系统日志 发现在17点16分有被杀掉的消息
再去查tiflash下的日志,就是上面附件传的error文件 ,发现提示某一个SQL文件找不到了。在然后就发现在tiflash下发现了core文件记录,查了一下,发现是内存错误。、
这个就是事情的整个经过。
你tiflash不和tikv争抢资源了,换到tidb server上了,那不一样争抢资源吗?。。。
你有几个tidb,多的话把这个机器上的tidb server先缩容掉,让tiflash独占一个机器看下。
另外应该不是你说的这种问题:
会不会是 把文件引入tiflash后,直接把tikv的表删掉了,从而引发的宕机。
你现在是tiflash找不到他对应的表结构文件,属于tikv上还有,但是tiflash没了,这种情况
而不是tikv表没了,tiflash上有的这种情况
郑旭东石家庄
(Ti D Ber Xh Hfy Sc H)
8
现在的问题有两个 ,
第一个是如何判断是什么操作引起的这个问题,以后如何避免
第二个是 如果资源竞争,应该资源使用率很高才会出现竞争的问题,可是现在CPU、内存都不高,应该不存在竞争问题 。
郑旭东石家庄
(Ti D Ber Xh Hfy Sc H)
10
当时出问题时内存才用了不到60%
我咋跟领导解析,如果它到了80%也好说点 ,现在内存使用这么低,没法说呀
托马斯滑板鞋
(托马斯滑板鞋)
11
上系统日志,看上面的core解析文件,大概率是内存不足core dump被系统干掉了
h5n1
(H5n1)
13
select TABLE_SCHEMA,TABLE_NAME,TIDB_TABLE_ID from information_schema.tables where table_id=146376; 看下这个表 你做过什么操作
pd-ctl region 7596696 再看下这个region状态
托马斯滑板鞋
(托马斯滑板鞋)
14
/var/log/messages 里对应时间点有日志吗?
郑旭东石家庄
(Ti D Ber Xh Hfy Sc H)
15
messages-20240602 (266.1 KB)
这个是系统日志有对应时间的
非不安官方部署 你买的阿里云 本身也是一台虚拟机。tifash表如果坏了 把tiflash 节点下线再上
郑旭东石家庄
(Ti D Ber Xh Hfy Sc H)
19
按开发人员反馈,就是正常的增删改查,最多是 有几个 truncate 操作