tikv正常 region整体迁移问题

zhenda · 2021 年12 月 3 日 03:43

1）上传中：screencapture-tidb-test-grafana-tidb-test-tikv-details-2021-12-03-11_27_18.png…

2）store-pool-size = 2 只能通过配置文件查看么
3）region_id=4717299 的日志信息 region.log (11.0 KB)
node的吞吐和延迟监控暂权限。

zhenda · 2021 年12 月 3 日 04:56

宿主机的磁盘io

zhenjiaogao · 2021 年12 月 3 日 06:44

通过这个监控我们可以看到，整个集群中导致 leader 切换的主要原因是 prevote，这个表示是由 raft 选举产生了新的 leader。

这个监控页面显示，在 16:35 ~ 16:45 左右，以及 16:50 ~ 17:02 左右，Disk R/W Time 和 Disk IOps Completed 出现了升高~

参数理论上可以通过下面的方式来查看：

show config where `type`='tikv' and name like '%store-pool-size%';

这个 pdf 应该是上传的有些问题，辛苦重新上传下吧，我们再看下 raftstore cpu 的问题谢谢 ~

zhenda · 2021 年12 月 3 日 07:33

screencapture-tidb-test-grafana-tidb-test-tikv-details-2021-12-03-11_27_181920×16746 3.92 MB

林先森cC · 2021 年12 月 6 日 07:13

看现象像是倒数据的那个表是个热点表倒数据期间leader切换了到数据和更新数据的表有几个region呢是否触发了region分裂期间region有没有增加

zhenda · 2021 年12 月 6 日 07:45

我们 tidb 版本是5.0.1 默认hibernate-regions 是关闭的。5.0.2版本默认是开启的。

raft io和让发帖propose 监控如下：

zhenda · 2021 年12 月 6 日 08:09

node exporter 信息screencapture-brainpp-cn-grafana-d-4VYPbJlmk-machine-node-exporter-full-2021-12-06-15_53_13.pdf (11.9 MB)

zhenjiaogao · 2021 年12 月 6 日 09:25

1、tikv-details → grpc 修改下下面的公式，按照 max 来排序看下各个 tikv 的情况：

2、这个监控是出现 leader drop 的 tikv-0 所在的宿主机的 node-exporter 监控吗？

3、tikv-details → server → channel full 监控

zhenjiaogao · 2021 年12 月 7 日 04:29

根据当前提供的监控以及日志信息，初步判断造成该问题的原因为：tikv0 因为热点，写入的量非常大，网络发送的速度跟不上新消息写入的速度，导致 replicate raft message channel 出现 full 。tikv0 和其他 tikv 节点心跳信息通讯异常。此时整个集群的写入速度也非常慢，并且宿主机磁盘性能可能出现了抖动，心跳信息通过 raftstore 发送，磁盘抖动，也可能导致出现掉 leader 现象。

综上，网络发送的速度跟不上可以通过下述监控，来判断下，是否有某一个 grpc 线程被打满：

集群写入速度慢，或磁盘长尾情况，可以通过 raft io，raft propose 以及 rockskv – write duration / wal sync duration 来进一步判断~

基于上面的原因，建议做下面的操作：
1、打散数据写入热点，打散热点的方式在本站中有非常多的实践贴，可自行搜索
2、开启静默 region，从当前的监控可见 raft massage 中，心跳消息的数量远大于 append 数据写入的消息。开启方式见：https://docs.pingcap.com/zh/tidb/v5.0/tikv-configuration-file#hibernate-regions

zhenda · 2021 年12 月 7 日 06:41

1、tikv情况：

2、是tikv-0的node exporter
3、channel full 监控显示 no data，截图之前已贴

zhenda · 2021 年12 月 7 日 06:50

从截图来看grpc 线程利用率不高，出现问题的时间利用率更低一些。
raft io，raft propose 上面已贴图
rockskv – write duration / wal sync duration截图如下，帮进一步判断

zhenjiaogao · 2021 年12 月 7 日 06:58

建议做此调整后，观察下集群情况 ~

zhenda · 2021 年12 月 7 日 07:06

出现full，是通过哪个监控metric看到的

zhenjiaogao · 2021 年12 月 7 日 07:31

如果想了解 tikv 写入更详细的信息，可以参考下述帖子：

system · 2022 年10 月 31 日 19:18

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。