DM同步了两个月时间，突然master节点down掉了，翻看报错信息

TiDBer_STGGd1J1 · 2024 年6 月 18 日 03:16

查看当时的内存CPU和磁盘并不高
有没有大佬帮忙看下

TiDBer_STGGd1J1 · 2024 年6 月 18 日 03:19

dm-master-stderr.log里面的报错是

TiDBer_STGGd1J1 · 2024 年6 月 18 日 03:21

6月16号早上两点开始报错

[2024/06/16 02:01:59.890 +08:00] [WARN] [server.go:1079] [“failed to revoke lease”] [component=“embed etcd”] [lease-id=08f58c96d80b963e] [error=“etcdserver: request timed out”]

[2024/06/16 02:03:00.407 +08:00] [WARN] [util.go:121] [“failed to apply request”] [component=“embed etcd”] [took=78.553µs] [request=“header:<ID:645576701095157679 > lease_revoke:id:08f58c96d80b95e6”] [response=size:28] [error=“lease not found”]

[2024/06/16 02:03:02.362 +08:00] [WARN] [util.go:163] [“apply request took too long”] [component=“embed etcd”] [took=1.293770921s] [expected-duration=100ms] [prefix=] [request=“header:<ID:645576701095157767 > lease_grant:<ttl:60-second id:08f58c96d80ba006>”] [response=size:40]

zhaokede · 2024 年6 月 18 日 03:22

过远程过程调用（RPC）进行通信时，等待的操作超过了设定的截止时间（deadline）
网络延迟、资源瓶颈、系统负载过高或配置的时间限制过短等原因导致操作未能在预期时间内完成。确定期间网络是不是有抖动

TiDBer_STGGd1J1 · 2024 年6 月 18 日 03:31

我后续的操作是重启了master节点就恢复了，目前需要排查是什么原因导致了，导致了任务同步停滞了一天

TiDBer_STGGd1J1 · 2024 年6 月 18 日 06:12

找人看了tidb网络波动，说是没有波动

TiDBer_STGGd1J1 · 2024 年6 月 18 日 07:15

会不会DM的主机备份时间段内，不能操作导致的？

The-Fallen-Angel · 2024 年6 月 19 日 00:25

还没用过dm。其他的操作经验给下建议：1.表结构是否发生变化。2 是否有大批量操作导致资源不足，可以通过观测出问题前的日志。3.人为不下心操作导致。

xfworld · 2024 年6 月 19 日 10:59

有什么繁忙的操作导致 PD 无法响应？