tidb集群挂了,请帮忙看下什么原因导致的,在线等

16点到17点,我们一直都在导入数据,把旧tidb集群数据使用dumpling组件导出,再使用loader组件到新tidb集群再导入,整个操作持续了将近一个小时,因之前的tidb集群不能区分英文大小写,导致有张表里面有很多kol信息重复,loader在导入新tidb集群的时候会不断的提示主键冲突,我们是手动清除重复的数据后,再重新导入,一直导完结束,中途没其他的操作了

不好意思现在才回复。

我们这边分析之后发现在 16:30 左右有读 etcd 过慢甚至超时的现象,是否方便可以再那一下 etcd 的监控呢?在 pd -> etcd 里可以看

这个监控信息在哪里查看?grafana可视化的监控系统里面吗?

导出了最近7天的监控系统信息,请查看json数据

tidb-bz-live-PD_2021-01-26T09_43_29.308Z.json (671.9 KB)

不好意思,这个帖子回复的有点晚。
(1)从 pd-etcd 监控中看,在 16:40 左右 etcd 99% 的网络时延已经超过了 3s ,通常这个值是在 1s 之内,麻烦检查下那个时间段内网络是否有问题。
(2)另外请问下目前这个集群还有出现过异常挂掉的现象吗?

回复时间太长了,我们tidb集群后来增加了一台服务器,上面部署了pd+tidb服务,截止到现在还没出现过异常挂掉的现象。

很抱歉没有及时解决你的问题,如果有新的问题麻烦再重新开贴提问 :pray:

好的,谢谢

:handshake: