region heartbeart 异常和active written leaders监控项异常

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

tikv.log (1.2 MB)

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

  1. 这个异常对于业务有影响么?
  2. 出现异常是从什么时间点开始出现的?出现的时候做过什么操作?
  3. 可以提供一下完整的 TiKV-Details 和 PD 面板的监控看下
    https://metricstool.pingcap.com/

我是最近才上岗的,具体情况并不太清楚。tidb在去年就出现了性能下降的情况,所以已经从生产环境下线了,主要发现是磁盘I/O 吃满,据说有leader频繁切换的问题。
从可追溯的监控日志上查看,一直是存在这个问题的。


最近的sysbench测试,查询QPS只有2000,update QPS操作只有150不到。
感谢您的查看及回复!!!

test-cluster-PD_2021-01-13T03_22_02.192Z.json (1.8 MB)
test-cluster-TiKV-Details_2021-01-13T03_16_51.127Z.json (8.3 MB)

image
image
从监控上看并没有发现 leader 频繁切换的问题,不过在 11 点左右有一个抖动,从 error 监控看当时 241.56 这个节点有 unreachable 的错误,可以确认一下 TiKV 是不是有重启的情况,或者网络抖动导致别的节点连不上这个节点。

leader 数量分布不均衡是因为 TiKV 节点的磁盘容量不均衡,可以考虑调整 2T 那个 TiKV 节点的配置,设置 capacity 跟别的节点一致:https://github.com/tikv/tikv/blob/master/etc/config-template.toml#L268
image

Active written leaders 这个监控表示的是各个 TiKV 实例中正在被写入的 Leader 的数量,从 IO utilization 的监控也可以看到每个实例之间的写入量是不一样的。这个与业务写入的数据有关系,可以参考热点问题这个文档看下:https://docs.pingcap.com/zh/tidb/stable/troubleshoot-hot-spot-issues#使用-shard_row_id_bits-处理热点表
image