集群状态很不稳定

不断啊 ping了半小时 还成啊,现在我用dm往里面转移mysql的表的时候,基本10个ddl就会出现pd timeout的情况,不知道创建表为啥会对pd有这么大影响

只看 ping 不太行, iftop 看下 流量监控,是不是有网卡流量打满了?

检查一下网络

看node_exporter的dashboard,看每台的网络使用情况

资源不足的问题,观察下网络、IO、CPU、内存

磁盘性能怎么样呢

这几天观察 好像机械硬盘 确实性能不行

可以按官方文档测试一下磁盘性能
https://docs.pingcap.com/zh/tidb/stable/deploy-and-maintain-faq#如何用-fio-命令测试-tikv-实例的磁盘性能

网络和磁盘情况检查下

主机zabbix,或者tidb自带的Prometheus相关信息都发出来呢

检查系统,网络,磁盘使用情况

网络有问题把

注意网络 还有节点时间是否不同步

网络的问题

感觉像是网络问题

1.网络或带宽问题
2.再者就是机器是不是硬件资源不足

机械硬盘。。换设备吧

1.对比恢复前后的进程号是否相同,如果不同,通过系统日志查看下,是什么原因导致宕机,OOM?
2. 查看是否是网络问题,直接telnet对应的端口?
3. 检查配置,是不是端口冲突?

网络被其他啥应用或者任务间接性打满导致的,看着像是这个原因

所以到底是什么原因