大量TiDB_tikvclient_region_err_total 告警

TUG微尘 · 2021 年1 月 23 日 07:41

为提高效率，请提供以下信息，问题描述清晰能够更快得到解决：

[TiDB 版本]
tidb-v4.0.7

[问题描述]

现象： TiDB_tikvclient_region_err_total告警比较频繁( “value”:“22256.000000” 1w-3w之间)
业务: 集群每天会大量写入数据，并drop partition(夜间)
配置：

store limit: 120
enable-cross-table-merge: true
patrol-region-interval:  50ms
merge-schedule-limit: 128

tidb日志：较多

Region is unavailable
switch region leader to specific leader due to kv return NotLeader

问题：
针对该业务场景及配置参数的情况，TiDB_tikvclient_region_err_total告警反应的region cache问题，是否还有优化空间？如果没有优化空间，该告警规则是否可以去掉？

若提问为性能优化、故障排查类问题，请下载脚本运行。终端输出的打印结果，请务必全选并复制粘贴上传。

TUG微尘 · 2021 年1 月 25 日 06:27

Lucien-卢西恩 · 2021 年1 月 26 日 02:30

总结的不错，感谢反馈

baofengyu · 2023 年5 月 4 日 06:09

我遇到同样问题，请问原因和优化方法是什么？

baofengyu · 2023 年5 月 4 日 06:12

回复删除了吗？抱歉，我咋看不到之前的总结

ljluestc · 2023 年6 月 4 日 18:52

TUG微尘:

为提高效率，请提供以下信息，问题描述清晰能够更快得到解决：

[TiDB 版本]
tidb-v4.0.7

[问题描述]

现象： TiDB_tikvclient_region_err_total告警比较频繁( “value”:“22256.000000” 1w-3w之间)
业务: 集群每天会大量写入数据，并drop partition(夜间)
配置：
store limit: 120
enable-cross-table-merge: true
patrol-region-interval:  50ms
merge-schedule-limit: 128
tidb日志：较多
Region is unavailable
switch region leader to specific leader due to kv return NotLeader
问题：
针对该业务场景及配置参数的情况，TiDB_tikvclient_region_err_total告警反应的region cache问题，是否还有优化空间？如果没有优化空间，该告警规则是否可以去掉？

若提问为性能优化、故障排查类问题，请下载脚本运行。终端输出的打印结果，请务必全选并复制粘贴上传。

TiDB_tikvclient_region_err_total 告警表示您的 TiDB 集群的 TiKV client 经常出现 region 操作相关的错误。这些错误可能是由多种因素引起的，例如网络问题、TiKV 节点过载或配置错误。

根据提供的信息，这里有一些优化区域缓存并可能降低警报频率的建议：

增加存储限制：如果您的集群遇到大量写入流量，请考虑增加存储限制配置以提供更多资源来处理工作负载。这有助于缓解潜在的瓶颈并减少区域错误的发生。

调整 patrol-region-interval：patrol-region-interval 参数控制 TiKV 客户端巡视区域状态的频率。您已将其设置为相对较低的值 50 毫秒。虽然这提供了更多关于区域变化的实时信息，但它也会增加 TiKV 客户端的负载。考虑将此值调整为稍高的间隔，例如 100 毫秒或 200 毫秒，以降低区域缓存更新的频率并可能提高稳定性。

检查网络问题：频繁的区域错误可能是由 TiDB 和 TiKV 节点之间的网络连接问题引起的。确保网络基础设施配置正确、稳定并且能够处理集群的流量。考虑检查网络设置，例如 MTU 大小、网卡配置和网络交换机配置。

调查 TiDB 日志：TiDB 日志中存在许多日志可能表明集群中存在潜在问题。分析 TiDB 日志以识别可能指向特定问题的任何错误消息、警告或模式。这可以为区域错误的根本原因提供有价值的见解，并帮助确定适当的优化措施。

redgame · 2023 年6 月 5 日 00:06

有收获，谢谢

system · 2024 年4 月 24 日 02:28

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。