MyronWang
(Myron Wang)
1
为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【TiDB 版本】
MySQL: 5.7.22-log MySQL Community Server (GPL)
TiDB: v4.0.11
DM: v2.0.1
【问题描述】
今天下午4点多,突然收到生产环境DM集群的告警,显示 dm-master 状态变为“Down”,但此告警报了一次就没报了,也就是恢复了。于是我查了下那段时间的 dm-master 日志,并未看到有什么异常。
后来看到一些警告级别的信息,担心会影响 DM 集群的稳定性,特请教下这种警告日志是否正常?
只有一个 dm-master 节点有这种警告信息。
看一下那段时间的dm-worker的日志呢,可能是和worker交互失败
MyronWang
(Myron Wang)
3
0.34 是一台监控机,定时查询 dm-master 的服务状态。
MyronWang
(Myron Wang)
4
看了下 message 日志,16:18 dm-master 应该是异常了,估计是集群自愈了吧。
每2分钟监测一次,18分的没有。
0.34出现连接不到dm-master,如果是通过的端口进行检测,在16:18时间没有告警信息, 但是dm-master也没有任何重启日志。应该是在网络层出现什么问题了
connection reset by peer出现这个日志应该是监控程序连接到master,然后master想获取监控client结果client已经close了。 你可以尝试先关闭监控应该这个日志不会继续出现。
MyronWang
(Myron Wang)
6
(对了,这种日志并不是连续出现,是没规律的随机出现,帖子截图中日志时间能看出)
我刚刚又过滤了下日志,并不是只有监控机 0.34 访问 dm-master 出现此警告信息。
可以看到,249自己访问自己也会出现。奇怪的是, 10.20.39.249:17910 这个端口不知道是哪个进程的,我这边 dm-master 、 dm-worker 都是使用的 4 位数端口,估计是某个进程的随机端口。
从这里可以看出,问题应该还是在 dm-master 上。
MyronWang
(Myron Wang)
关闭
9
此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。