dm-master 日志出现 “read: connection reset by peer” 警告信息

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:

【TiDB 版本】

MySQL: 5.7.22-log MySQL Community Server (GPL)
TiDB: v4.0.11
DM:   v2.0.1

【问题描述】

今天下午4点多,突然收到生产环境DM集群的告警,显示 dm-master 状态变为“Down”,但此告警报了一次就没报了,也就是恢复了。于是我查了下那段时间的 dm-master 日志,并未看到有什么异常。
后来看到一些警告级别的信息,担心会影响 DM 集群的稳定性,特请教下这种警告日志是否正常?

只有一个 dm-master 节点有这种警告信息。

看一下那段时间的dm-worker的日志呢,可能是和worker交互失败

0.34 是一台监控机,定时查询 dm-master 的服务状态。

看了下 message 日志,16:18 dm-master 应该是异常了,估计是集群自愈了吧。

每2分钟监测一次,18分的没有。

0.34出现连接不到dm-master,如果是通过的端口进行检测,在16:18时间没有告警信息, 但是dm-master也没有任何重启日志。应该是在网络层出现什么问题了
connection reset by peer出现这个日志应该是监控程序连接到master,然后master想获取监控client结果client已经close了。 你可以尝试先关闭监控应该这个日志不会继续出现。

(对了,这种日志并不是连续出现,是没规律的随机出现,帖子截图中日志时间能看出)
我刚刚又过滤了下日志,并不是只有监控机 0.34 访问 dm-master 出现此警告信息。

可以看到,249自己访问自己也会出现。奇怪的是, 10.20.39.249:17910 这个端口不知道是哪个进程的,我这边 dm-master 、 dm-worker 都是使用的 4 位数端口,估计是某个进程的随机端口。
从这里可以看出,问题应该还是在 dm-master 上。

这是 老版本 gRPC 的日志. etcd >=v3.2.13 已经把这种日志调成 DEBUG 级别了

只要业务正常,其实可以忽略这种日志。

1 个赞

好的,十分感谢!

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。