tikv get snapshot failed

宸凡_22 · 2023 年1 月 29 日 13:01

Prewrite 阶段耗时太大
大量get snapshot failed 导致性能下降，如何排查？
logs (2).zip (56.9 KB)

xfworld · 2023 年1 月 29 日 14:11

能补充下集群的配置信息么？网络，硬件(cpu,mem,disk)，节点信息等等

宸凡_22 · 2023 年1 月 29 日 14:14

xfworld · 2023 年1 月 30 日 01:21

这个IO 持续性都是很高么…

宸凡_22 · 2023 年1 月 30 日 01:25

一直是这样的，有服务一直再写数据，我们是做智能设备的，设备的实时数据会10s左右写一次。

xfworld · 2023 年1 月 30 日 01:53

可以关注下磁盘的吞吐性能和业务上的需求是否完全符合…

我感觉这个指标反映的情况是业务需求大于硬件性能的

宸凡_22 · 2023 年1 月 30 日 06:19

从业务上来说主要是写入数据，增加批量写入的数据量，性能有所提升。但是上面的报错一直存在，是不是 bug?

xfworld · 2023 年1 月 30 日 06:20

IO 不够，限制了很多服务之间的联系… 也没办法保证副本之间的同步了

建议你查阅下 region 的统计信息，如果发现有很大的差距，想办法优化下把

宸凡_22 · 2023 年1 月 30 日 06:48

IO 不够是SSD磁盘的读写性能达不到业务需求吗？

xfworld · 2023 年1 月 30 日 12:57

查下 SSD 的性能参数，如果有可能，还会有 RAID ， RAID 也有可能导致 SSD 性能无法释放

可以参考下这个

然后，我个人收藏了一些参数，你也可以参考下
fdatasync的性能参考

参考值一：非 NVMe 的 SSD 的 fdatasync/s 约 5~8K/s

参考值二：中早期 NVMe 的 fdatasync/s 约 20~50K/s

参考值三：当前成熟的 PCIE 3 的 NVMe 约 200~500K/s

Hacker_xUwtuKxa · 2023 年2 月 2 日 07:33

看起来是io能力不足(ioUtility%=100%),另外还可以补充看看网络传输的一些指标。

system · 2023 年4 月 3 日 07:34

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。