TiDB集群偶尔出现“TiFlash副本不可用”告警,但很快自动恢复,如何根治?

我们线上有一个TiDB集群),部署了TiFlash节点用于AP查询和分析。
最近监控系统偶尔会报出“某个表的TiFlash副本不可用”的告警,持续时间不长,通常几十秒到一分钟就自动恢复了。虽然暂时没对线上业务造成严重影响,但总感觉是个隐患。
查看TiFlash日志,在告警期间能看到一些 [ERROR] [ CoprocessorHandler.cpp:xxx ] 相关的错误。
想请教大家:

  1. 这种间歇性的副本不可用,通常和哪些因素有关?是网络波动、TiFlash节点负载过高,还是底层存储的问题?
    2.除了看日志,有哪些监控指标(在Grafana里)是排查这个问题的关键?
    3.有没有什么配置或者最佳实践可以增强TiFlash的稳定性,避免这种“抖动”?
    希望有经验的大佬不吝赐教,谢谢!
1 个赞

看下这个点的C PU、内存、IO压力情况呢?

看下这个点的C PU、内存、IO压力情况呢?

都是正常的

正常范围内,偶现

具体是什么告警,告警表达式是啥?

抖动多是心跳或同步短暂中断所致,虽然不影响强一致性,但是还是需要彻底排查。

[quote=“lllzd, post:7, topic:1048806, full:true”]
抖动多是心跳或同步短暂中断所致,虽然不影响强一致性,但是还是需要彻底排查。
[/quote] 好的谢谢,我再观察下

很奇怪的现象啊

间歇性副本不可用的可能因素,网络波动网络问题可能导致 TiFlash 与其他组件之间的通信中断
TiFlash 节点负载过高,如果 TiFlash 节点的 CPU、内存等资源利用率过高,可能会导致其无法及时处理请求,进而出现副本不可用的情况,底层存储问题,底层存储的性能问题或空间不足可能影响 TiFlash 副本的可用性。配置错误,PD 的 Placement Rules 功能未正确开启或副本数配置不合理,可能导致 TiFlash 副本出现异常。软件 Bug,TiFlash 版本可能存在一些已知的 Bug,导致副本间歇性不可用。

常见的是有列存引擎后台 Compaction / 快照合并引起的

排查一下监控相关的指标:TiFlash 节点负载峰值、网络抖动、存储 IO 延迟

我近期再观察下,谢谢

是的,非常奇怪

嗯嗯,我再看看,谢谢您

升级高版本是不是可以解决这个问题

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。