TiFlash 处于Down状态,如何启动和排查原因

【 TiDB 使用环境】
生产环境
【 TiDB 版本】
7.5.1
【复现路径】
未做任何操作
【遇到的问题:问题现象及影响】

接到预警提醒TiFlash出现下线情况,经检查 该服务器 tiflash进程在运行中 ,通过telnet操作可以进入。端口可用。

请问各位大佬,该如何分析错误原因, 如何让其正常启动 ,谢谢 。

【资源配置】
部署了两个FLAHS节点。其中一个down了 。

【附件:截图/日志/监控】




tiflash_error_0519.log (81.4 KB)

tiflash_error_0519.log (81.4 KB)

/flash/tidb-data/tiflash-9000/metadata/db_161619/t_124444.sql这个文件不存在?你看下这个目录和文件的状态正常吗?

这个目录存在,里面有很多sql文件,但是没有提示的文件,此错误在其他日期也出现过 。非个例

系统日志发现异常

是不是oom 了,上面还有系统日志

感觉还是和这条日志有关,
你看看17号的系统日志,看看有什么报错,感觉19号启动没起来,17号才是运行中down的

1.log (10.3 KB)
系统日志

错误日志中最多的就是 类似 /flash/tidb-data/tiflash-9000/metadata/db_161619/t_124444.sql 文件不存在 ,
具体日志在上面提供了

tiflash强烈建议不要和其他节点混合部署,tiflash对应资源的需求量非常大,很容易和其他节点产生资源争用。

这个是没有办法的,资源有限。只能混合部署。

而且通过资源监测,除了内存使用达到了 80%左右,CPU和磁盘资源都很富裕

1、tiflash还是不要混部署,对性能要求高;
2、下架tiflash后副本数是多少。建议先取消加速
ALTER TABLE xxx SET TIFLASH REPLICA 0;
ALTER TABLE xxx SET TIFLASH REPLICA 1;

原来是2个副本,现在挂了1个,还剩1个。

你的系统日志里面是这个 SIGSEGV 信号,可能是内存原因导致的 kill。

现在内存可用为 29G ,如何让TIFLASH 重启 ?

如何进一步定位是否为内存引发的问题 ?

SELECT * FROM information_schema.tiflash_replica 查查现在你的副本数。

你这个是混合部署的吗?就是关机加内存不能操作是吧。那就加swap进去,先看看能不能把tiflash拉起来,如果能拉机器,那就是内存不够了。