TiDB集群etcd写盘慢

【 TiDB 使用环境】生产环境
【 TiDB 版本】6.5.0
【复现路径】近期频繁发生
【遇到的问题:问题现象及影响】最近有多套TiDB集群频繁报etcd写盘慢的告警(告警条件是:select instance,value from METRICS_SCHEMA.etcd_wal_fsync_duration where quantile=0.99 and time=now() and value>1 就告警)
【资源配置】这些集群每套都是通过tiup部署在3节点云主机上,每台云主机都部署了1个TiDB,1个PD,1个TiKV,每台机器的TIDB、PD、TiKV数据都放在同一块数据盘上
【复制黏贴 ERROR 报错的日志】
【其他附件:截图/日志/监控】
其他说明:这些报etcd写盘慢的集群数据都不大,最小的数据量1.6GB,最大的数据量181GB,qps都比较低,这些机器的etcd写盘慢告警不是一致持续存在,都是持续的时间几分钟不到10分钟,为什么数据量近1个多GB,qps很低的集群也会出现呢?
这个问题我们应该怎么解决呢?是否可以忽略该告警或者调高告警阀值?

看下磁盘监控情况,云主机一般磁盘性能都比较差,如果 PD 没有异常切换,性能也能接受的话,把告警阈值调大把

写盘延时你可以用fio等工具测测,如果确实硬盘慢要不换盘要不无视

写盘延时你可以用fio等工具测测,如果确实硬盘慢要不换盘要不无视告警


分别看了一下这些告警etcd写盘慢的集群,发现有PD切换的日志,但是切换的时间都是24年的,没有25年切换的日志

你都用的云主机了,为啥不把pd和tikv分开部署呢?一台放3个组件,和2台放3个组件,成本不变,稳定性可以提高很多。

可能我没有说清楚,每套集群都是3个节点,每个节点上都部署了TiDB,PD,TiKV,一共3个TiDB,3个PD,3个TiKV

那我没理解错。这个部署是容易不稳定的。最好是pd和tidb一台,tikv单独一台。

原有的一台配置平分就行了,这样成本差不多,3台变6台,但稳定性会好很多。
已经部署的用缩容扩容调整也不麻烦的。

好的,感谢

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。