tidb集群挂了,请帮忙看下什么原因导致的,在线等

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:

[TiDB 版本] tidb v4.0.9

[问题描述]
新部署的tidb集群,才导入数据,现在集群莫名的挂了,

启动错误日志
tiup-cluster-debug-2021-01-21-18-12-31.log (14.8 KB)

请帮忙看下什么原因导致的,比较急,谢谢

滚动重启,提示Error: rpc error: code = Unknown desc = context deadline exceeded 错误

两台pd服务器的日志pd日志.zip (776.8 KB)

pd 日志里显示有收到 sig term,可能因为什么原因被 kill 掉了
先试试直接 tiup cluster start tidb-bz-live?

直接 tiup cluster start tidb-bz-live 也是报错的,后来我们把pd两台服务器都重启后就可以了(192.168.1.219和192.168.1.206),具体原因我们也不知道为什么会挂掉

后续的 pd 日志可以提供一下吗?我们这边查一下
另外出于可用性的考虑建议扩容到三个 pd

这是我们刚下载的两台pd服务器日志

log.192.168.1.219.tar.gz (573.2 KB)
log.192.168.1.206.tar.gz (361.9 KB)

您的建议我们会考虑采纳,打算明天再加一台pd+tidb服务器,这样可能会稳定一些

1 Like

能查到是什么原因被kill掉的吗?跟cdc服务是否有关系呢?

可以看一下 dmesg 吗?我怀疑是有 oom

在哪里查看dmesg,是日志文件吗

物理机的话直接用 dmesg 命令看输出

我们用的是aws云服务器

我们集群总共一起是6台,使用dmesg命名在每台服务器上跑一下吗

看到错误了,有一台服务器192.168.1.219出现了问题,详情请查看dmesg命令打印的控制台日志

dmesg命名服务器控制台输出.zip (59.9 KB)

服务器控制台错误提示信息

看样子 cdc 有 oom 过,导入数据期间开了 cdc?

是的,我们开启了cdc服务,是这个服务导致了整个集群奔溃了是吧

通过cdc同步到另外一台mysql服务器上的

看起来也不像,我们现在从日志里看大约 16:30 前 pd 是正常的,而在 16:30 后 pd 开始出现了疑似连接的问题,选不出 leader,直到后面等到 19:30 左右两个 pd 都收到 sig term 之后重启。

能确认一下对应的时间点附近我们环境里有什么异常或者有做什么操作吗?

206 那台 pd 是 18:19 被 kill 的,219 是 19:21