tiflash日志异常

【 TiDB 使用环境】生产

【概述】 tiflash_cluster_manager 日志异常,中间缺失了12号-15号的副本定时任务日志?

【背景】 常规导入设置副本数

【现象】 无

【问题】down region 突然上升,missing region 数上升

【业务影响】 暂无

【 TiDB 版本】 5.0.0,部署了三台tiflash,设置了三副本

【附件】
tiflash1

tiflash2

tiflash3


若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

1 个赞

按照你的描述
down region 和 missing region 数量上升是 TIKV 的问题
多少为磁盘 性能问题
确认你的 tikv 的服务器 是否符合 生产环境推荐配置。如果不满足降低 数据导入的压力

https://docs.pingcap.com/zh/tidb/stable/hardware-and-software-requirements#生产环境

tikv正常,down region我认为应该是tiflash节点异常引起的。
对应的出现异常宕机的节点是tiflash1,半小时过去后,down与miss的region数量均没有自动恢复。
1月12日-1月16日期间,业务 tiflash查询 均正常
1月16日下午收到tiflash1宕机
1月16日-17日,修改所有tiflash副本由3变为2,发现miss数量下降,但未完全消失
1月17日上午开始排查,发现如上日志情况。tiflash1日志显示无副本任务写入,其余两节点 tiflash2于宕机当天开始有任务调度,成为了leader节点。
1月17日机器修复,同时发现其上的数据比另外两节点少很多,另外miss数量开始继续下降。


补充内容:
业务更新数据逻辑为如下
create b;
rename a to a_tmp;
rename b to a;
alter table a set tiflash replica 3;

  1. 上面回复的截图是哪个面板上的?可否提供一下路径
  2. tiflash 5.0.0 有一些已知 bug 可能导致宕机,建议升级到一个稳定版本 v5.0.6 试试

1.上面的截图在overview面板的pd栏目就可以查看到哈
2.已知的bug可用在哪里查看呢?
3.目前也是很怀疑tiflash存在异常,在查看三个tiflash的监控时发现io使用率存在明显异常,
宕机的tiflash1,在12号-16号宕机前 io使用率均为100%

1 个赞

提个问题,同时发现监控中 node_memory_HardwareCorrupted 内核识别为已损坏或不工作的内存量
这个指标是异常的,宕机当天,机房人员表示,内存存在故障,维修他们没有保存日志:sweat:
现在宕机原因不明,tiflash在内存异常的情况,磁盘会hung住然后停止写入吗?


内存异常 往往 进程会出现非预期的假死情况。
嗯 tiflash 同步数据是通过 复制 raft peer 来完成的。如果进程卡主后续工作都会有影响

  1. 你先升级到稳定版本再看看吧,如有问题,再进一步细看。就以我们推荐的稳定版本为准。
  2. 你们也先确保你们自己的平台环境稳定。当然 tiflash 数据是同 tikv 同步过来的,平台不稳定对 tiflash 数据没有影响,只是影响 sql 查询服务。
2 个赞

已升级至5.0.6,待观察

补充:miss的region ,应该是tiflash异常期间非正常写入造成的
pd ctl check miss region 检查到对应的region_id,的确是只有5副本,缺了一个tiflash的副本
但是对应的relica 异常的时候就已经设置为了2,但是并没有恢复,存在设置为2仍然无法修复miss的状态
最后41个miss region,是通过将tiflash副本从2又设置为3修复的

1 个赞

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。