llplmlyd
(Llplmlyd)
1
【 TiDB 使用环境】生产
【概述】 tiflash_cluster_manager 日志异常,中间缺失了12号-15号的副本定时任务日志?
【背景】 常规导入设置副本数
【现象】 无
【问题】down region 突然上升,missing region 数上升
【业务影响】 暂无
【 TiDB 版本】 5.0.0,部署了三台tiflash,设置了三副本
【附件】
tiflash1
tiflash2
tiflash3
若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。
1 个赞
北京大爷
(北京大爷)
2
按照你的描述
down region 和 missing region 数量上升是 TIKV 的问题
多少为磁盘 性能问题
确认你的 tikv 的服务器 是否符合 生产环境推荐配置。如果不满足降低 数据导入的压力
https://docs.pingcap.com/zh/tidb/stable/hardware-and-software-requirements#生产环境
llplmlyd
(Llplmlyd)
3
tikv正常,down region我认为应该是tiflash节点异常引起的。
对应的出现异常宕机的节点是tiflash1,半小时过去后,down与miss的region数量均没有自动恢复。
1月12日-1月16日期间,业务 tiflash查询 均正常
1月16日下午收到tiflash1宕机
1月16日-17日,修改所有tiflash副本由3变为2,发现miss数量下降,但未完全消失
1月17日上午开始排查,发现如上日志情况。tiflash1日志显示无副本任务写入,其余两节点 tiflash2于宕机当天开始有任务调度,成为了leader节点。
1月17日机器修复,同时发现其上的数据比另外两节点少很多,另外miss数量开始继续下降。
补充内容:
业务更新数据逻辑为如下
create b;
rename a to a_tmp;
rename b to a;
alter table a set tiflash replica 3;
llplmlyd
(Llplmlyd)
5
1.上面的截图在overview面板的pd栏目就可以查看到哈
2.已知的bug可用在哪里查看呢?
3.目前也是很怀疑tiflash存在异常,在查看三个tiflash的监控时发现io使用率存在明显异常,
宕机的tiflash1,在12号-16号宕机前 io使用率均为100%
1 个赞
llplmlyd
(Llplmlyd)
6
提个问题,同时发现监控中 node_memory_HardwareCorrupted 内核识别为已损坏或不工作的内存量
这个指标是异常的,宕机当天,机房人员表示,内存存在故障,维修他们没有保存日志:sweat:
现在宕机原因不明,tiflash在内存异常的情况,磁盘会hung住然后停止写入吗?
北京大爷
(北京大爷)
7
内存异常 往往 进程会出现非预期的假死情况。
嗯 tiflash 同步数据是通过 复制 raft peer 来完成的。如果进程卡主后续工作都会有影响
llplmlyd
(Llplmlyd)
9
已升级至5.0.6,待观察
补充:miss的region ,应该是tiflash异常期间非正常写入造成的
pd ctl check miss region 检查到对应的region_id,的确是只有5副本,缺了一个tiflash的副本
但是对应的relica 异常的时候就已经设置为了2,但是并没有恢复,存在设置为2仍然无法修复miss的状态
最后41个miss region,是通过将tiflash副本从2又设置为3修复的
1 个赞
system
(system)
关闭
10
此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。