为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。
- 【TiDB 版本】:v4.0.9
- 【问题描述】:
active written leaders监控项异常,见截图,另外该节点日志
tikv.log (1.2 MB)
若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。
为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。
tikv.log (1.2 MB)
若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。
我是最近才上岗的,具体情况并不太清楚。tidb在去年就出现了性能下降的情况,所以已经从生产环境下线了,主要发现是磁盘I/O 吃满,据说有leader频繁切换的问题。
从可追溯的监控日志上查看,一直是存在这个问题的。
test-cluster-PD_2021-01-13T03_22_02.192Z.json (1.8 MB)
test-cluster-TiKV-Details_2021-01-13T03_16_51.127Z.json (8.3 MB)
从监控上看并没有发现 leader 频繁切换的问题,不过在 11 点左右有一个抖动,从 error 监控看当时 241.56 这个节点有 unreachable 的错误,可以确认一下 TiKV 是不是有重启的情况,或者网络抖动导致别的节点连不上这个节点。
leader 数量分布不均衡是因为 TiKV 节点的磁盘容量不均衡,可以考虑调整 2T 那个 TiKV 节点的配置,设置 capacity 跟别的节点一致:https://github.com/tikv/tikv/blob/master/etc/config-template.toml#L268
Active written leaders 这个监控表示的是各个 TiKV 实例中正在被写入的 Leader 的数量,从 IO utilization 的监控也可以看到每个实例之间的写入量是不一样的。这个与业务写入的数据有关系,可以参考热点问题这个文档看下:https://docs.pingcap.com/zh/tidb/stable/troubleshoot-hot-spot-issues#使用-shard_row_id_bits-处理热点表