大量TiDB_tikvclient_region_err_total 告警

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:

[TiDB 版本]
tidb-v4.0.7

[问题描述]

现象: TiDB_tikvclient_region_err_total告警比较频繁( “value”:“22256.000000” 1w-3w之间)
业务: 集群每天会大量写入数据,并drop partition(夜间)
配置

store limit: 120
enable-cross-table-merge: true
patrol-region-interval:  50ms
merge-schedule-limit: 128

tidb日志:较多

Region is unavailable
switch region leader to specific leader due to kv return NotLeader

问题
针对该业务场景及配置参数的情况,TiDB_tikvclient_region_err_total告警反应的region cache问题,是否还有优化空间? 如果没有优化空间,该告警规则是否可以去掉?


若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

2 个赞

:up::up::up:

1 个赞

总结的不错 ,感谢反馈 :+1:

1 个赞

我遇到同样问题,请问原因和优化方法是什么?

回复删除了吗?抱歉,我咋看不到之前的总结

TiDB_tikvclient_region_err_total 告警表示您的 TiDB 集群的 TiKV client 经常出现 region 操作相关的错误。 这些错误可能是由多种因素引起的,例如网络问题、TiKV 节点过载或配置错误。

根据提供的信息,这里有一些优化区域缓存并可能降低警报频率的建议:

增加存储限制:如果您的集群遇到大量写入流量,请考虑增加存储限制配置以提供更多资源来处理工作负载。 这有助于缓解潜在的瓶颈并减少区域错误的发生。

调整 patrol-region-interval:patrol-region-interval 参数控制 TiKV 客户端巡视区域状态的频率。 您已将其设置为相对较低的值 50 毫秒。 虽然这提供了更多关于区域变化的实时信息,但它也会增加 TiKV 客户端的负载。 考虑将此值调整为稍高的间隔,例如 100 毫秒或 200 毫秒,以降低区域缓存更新的频率并可能提高稳定性。

检查网络问题:频繁的区域错误可能是由 TiDB 和 TiKV 节点之间的网络连接问题引起的。 确保网络基础设施配置正确、稳定并且能够处理集群的流量。 考虑检查网络设置,例如 MTU 大小、网卡配置和网络交换机配置。

调查 TiDB 日志:TiDB 日志中存在许多日志可能表明集群中存在潜在问题。 分析 TiDB 日志以识别可能指向特定问题的任何错误消息、警告或模式。 这可以为区域错误的根本原因提供有价值的见解,并帮助确定适当的优化措施。

有收获,谢谢

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。