tiflash日志异常

llplmlyd · 2022 年1 月 17 日 09:11

【 TiDB 使用环境】生产

【概述】 tiflash_cluster_manager 日志异常，中间缺失了12号-15号的副本定时任务日志？

【背景】常规导入设置副本数

【现象】无

【问题】down region 突然上升，missing region 数上升

【业务影响】暂无

【 TiDB 版本】 5.0.0，部署了三台tiflash，设置了三副本

【附件】
tiflash1

tiflash2

tiflash3

若提问为性能优化、故障排查类问题，请下载脚本运行。终端输出的打印结果，请务必全选并复制粘贴上传。

北京大爷 · 2022 年1 月 18 日 02:38

按照你的描述
down region 和 missing region 数量上升是 TIKV 的问题
多少为磁盘性能问题
确认你的 tikv 的服务器是否符合生产环境推荐配置。如果不满足降低数据导入的压力

https://docs.pingcap.com/zh/tidb/stable/hardware-and-software-requirements#生产环境

llplmlyd · 2022 年1 月 19 日 09:05

tikv正常，down region我认为应该是tiflash节点异常引起的。
对应的出现异常宕机的节点是tiflash1，半小时过去后，down与miss的region数量均没有自动恢复。
1月12日-1月16日期间，业务 tiflash查询均正常
1月16日下午收到tiflash1宕机
1月16日-17日，修改所有tiflash副本由3变为2，发现miss数量下降，但未完全消失
1月17日上午开始排查，发现如上日志情况。tiflash1日志显示无副本任务写入，其余两节点 tiflash2于宕机当天开始有任务调度，成为了leader节点。
1月17日机器修复，同时发现其上的数据比另外两节点少很多，另外miss数量开始继续下降。

补充内容：
业务更新数据逻辑为如下
create b;
rename a to a_tmp;
rename b to a;
alter table a set tiflash replica 3;

fzheducfa4394df0bd41e6 · 2022 年1 月 20 日 05:18

上面回复的截图是哪个面板上的？可否提供一下路径
tiflash 5.0.0 有一些已知 bug 可能导致宕机，建议升级到一个稳定版本 v5.0.6 试试

llplmlyd · 2022 年1 月 20 日 06:21

1.上面的截图在overview面板的pd栏目就可以查看到哈
2.已知的bug可用在哪里查看呢？
3.目前也是很怀疑tiflash存在异常，在查看三个tiflash的监控时发现io使用率存在明显异常，
宕机的tiflash1，在12号-16号宕机前 io使用率均为100%

llplmlyd · 2022 年1 月 20 日 08:23

提个问题，同时发现监控中 node_memory_HardwareCorrupted 内核识别为已损坏或不工作的内存量
这个指标是异常的，宕机当天，机房人员表示，内存存在故障，维修他们没有保存日志:sweat:
现在宕机原因不明，tiflash在内存异常的情况，磁盘会hung住然后停止写入吗？

北京大爷 · 2022 年1 月 20 日 09:37

内存异常往往进程会出现非预期的假死情况。
嗯 tiflash 同步数据是通过复制 raft peer 来完成的。如果进程卡主后续工作都会有影响

fzheducfa4394df0bd41e6 · 2022 年1 月 21 日 10:03

你先升级到稳定版本再看看吧，如有问题，再进一步细看。就以我们推荐的稳定版本为准。
你们也先确保你们自己的平台环境稳定。当然 tiflash 数据是同 tikv 同步过来的，平台不稳定对 tiflash 数据没有影响，只是影响 sql 查询服务。

llplmlyd · 2022 年1 月 26 日 02:07

已升级至5.0.6，待观察

补充：miss的region ，应该是tiflash异常期间非正常写入造成的
pd ctl check miss region 检查到对应的region_id,的确是只有5副本，缺了一个tiflash的副本
但是对应的relica 异常的时候就已经设置为了2，但是并没有恢复，存在设置为2仍然无法修复miss的状态
最后41个miss region，是通过将tiflash副本从2又设置为3修复的

system · 2022 年10 月 31 日 19:18

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。