TiDB集群etcd写盘慢

TiDBer_irdxFXwN · 2025 年2 月 25 日 06:36

【 TiDB 使用环境】生产环境
【 TiDB 版本】6.5.0
【复现路径】近期频繁发生
【遇到的问题：问题现象及影响】最近有多套TiDB集群频繁报etcd写盘慢的告警(告警条件是：select instance,value from METRICS_SCHEMA.etcd_wal_fsync_duration where quantile=0.99 and time=now() and value>1 就告警)
【资源配置】这些集群每套都是通过tiup部署在3节点云主机上，每台云主机都部署了1个TiDB，1个PD，1个TiKV，每台机器的TIDB、PD、TiKV数据都放在同一块数据盘上
【复制黏贴 ERROR 报错的日志】
【其他附件：截图/日志/监控】
其他说明：这些报etcd写盘慢的集群数据都不大，最小的数据量1.6GB，最大的数据量181GB，qps都比较低，这些机器的etcd写盘慢告警不是一致持续存在，都是持续的时间几分钟不到10分钟，为什么数据量近1个多GB，qps很低的集群也会出现呢？
这个问题我们应该怎么解决呢？是否可以忽略该告警或者调高告警阀值？

小龙虾爱大龙虾 · 2025 年2 月 25 日 07:49

看下磁盘监控情况，云主机一般磁盘性能都比较差，如果 PD 没有异常切换，性能也能接受的话，把告警阈值调大把

zhanggame1 · 2025 年2 月 25 日 09:29

写盘延时你可以用fio等工具测测，如果确实硬盘慢要不换盘要不无视

zhanggame1 · 2025 年2 月 25 日 09:29

写盘延时你可以用fio等工具测测，如果确实硬盘慢要不换盘要不无视告警

TiDBer_irdxFXwN · 2025 年2 月 25 日 10:12

分别看了一下这些告警etcd写盘慢的集群，发现有PD切换的日志，但是切换的时间都是24年的，没有25年切换的日志

有猫万事足 · 2025 年2 月 25 日 11:08

你都用的云主机了，为啥不把pd和tikv分开部署呢？一台放3个组件，和2台放3个组件，成本不变，稳定性可以提高很多。

TiDBer_irdxFXwN · 2025 年2 月 26 日 02:20

可能我没有说清楚，每套集群都是3个节点，每个节点上都部署了TiDB，PD，TiKV，一共3个TiDB，3个PD，3个TiKV

有猫万事足 · 2025 年2 月 26 日 05:31

那我没理解错。这个部署是容易不稳定的。最好是pd和tidb一台，tikv单独一台。

原有的一台配置平分就行了，这样成本差不多，3台变6台，但稳定性会好很多。
已经部署的用缩容扩容调整也不麻烦的。

TiDBer_irdxFXwN · 2025 年2 月 26 日 07:02

好的，感谢

system · 2025 年3 月 5 日 07:03

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。