crazy_yang
(Ti D Ber Aqnz R Oe N)
1
我们线上有一个TiDB集群),部署了TiFlash节点用于AP查询和分析。
最近监控系统偶尔会报出“某个表的TiFlash副本不可用”的告警,持续时间不长,通常几十秒到一分钟就自动恢复了。虽然暂时没对线上业务造成严重影响,但总感觉是个隐患。
查看TiFlash日志,在告警期间能看到一些 [ERROR] [ CoprocessorHandler.cpp:xxx ] 相关的错误。
想请教大家:
- 这种间歇性的副本不可用,通常和哪些因素有关?是网络波动、TiFlash节点负载过高,还是底层存储的问题?
2.除了看日志,有哪些监控指标(在Grafana里)是排查这个问题的关键?
3.有没有什么配置或者最佳实践可以增强TiFlash的稳定性,避免这种“抖动”?
希望有经验的大佬不吝赐教,谢谢!
1 个赞
lllzd
(时光旅行者)
7
抖动多是心跳或同步短暂中断所致,虽然不影响强一致性,但是还是需要彻底排查。
crazy_yang
(Ti D Ber Aqnz R Oe N)
8
[quote=“lllzd, post:7, topic:1048806, full:true”]
抖动多是心跳或同步短暂中断所致,虽然不影响强一致性,但是还是需要彻底排查。
[/quote] 好的谢谢,我再观察下
yangyang
(Ti D Ber A Lc My4qe)
10
间歇性副本不可用的可能因素,网络波动网络问题可能导致 TiFlash 与其他组件之间的通信中断
TiFlash 节点负载过高,如果 TiFlash 节点的 CPU、内存等资源利用率过高,可能会导致其无法及时处理请求,进而出现副本不可用的情况,底层存储问题,底层存储的性能问题或空间不足可能影响 TiFlash 副本的可用性。配置错误,PD 的 Placement Rules 功能未正确开启或副本数配置不合理,可能导致 TiFlash 副本出现异常。软件 Bug,TiFlash 版本可能存在一些已知的 Bug,导致副本间歇性不可用。
异乡的大人
(Ti D Ber 2 Qs S2z Ws)
11
常见的是有列存引擎后台 Compaction / 快照合并引起的
waeng
(Ti D Ber Nv9 Ord6n)
12
排查一下监控相关的指标:TiFlash 节点负载峰值、网络抖动、存储 IO 延迟
system
(system)
关闭
17
此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。