昨天给tidb导入了1500万数据重启之后drainer服务就启动失败

版本3.1.0



你好,

  1. 请将 drainer.log 上传,这边分析下

PS: 目前建议测试使用 4.0.0-rc 版本,比3.1 要更稳定一些

因为现在我们线上使用的是3.1版本,所以我先测试3.1

drainer.log (868.2 KB)

你好,

从最新重启日志分析,drainer 从 pd 获取 tso 失败,建议检查下

  1. 网络情况
  2. 直接简单的办法,通过扩容 两个 pd ,减轻 pd 负担,看下是否解决(先扩容 1 个 pd 也行)
  3. 上传 pd.log 这边继续分析下~

pd.log (3.3 MB)

不行扩容了一个pd,好像没有启动到扩容的pd那一步

你好,

问题已收到,这边看下

你好,

  1. 进入 tidb 执行 show pump status;show drainer status,反馈下。

  2. 日志中存在 pump create PullBinlogs client failed 可能是 pump 这边也存在问题,烦请上传下 punp 节点日志,

  3. 可以尝试 tiup cluster cluster-name restart -R pump,drainer

pump.log (4.1 MB)



稍等,这边看下

您觉得是什么问题了》?

你好,

2020/04/27 20:40:51.861 +08:00] [INFO] [etcd.go:555] ["stopping serving peer traffic"] [address=192.168.10.44:8996]
[2020/04/27 20:40:51.861 +08:00] [INFO] [etcd.go:562] ["stopped serving peer traffic"] [address=192.168.10.44:8996]
[2020/04/27 20:40:51.861 +08:00] [INFO] [etcd.go:364] ["closed etcd server"] [name=pd-192.168.10.44-8995] [data-dir=/opt/tidb/tidb-data/pd-8995] [advertise-peer-urls="[http://192.168.10.44:8996]"] [advertise-client-urls="[http://192.168.10.44:8995]"]
[2020/04/27 20:40:51.862 +08:00] [INFO] [server.go:424] ["close server"]
[2020/04/27 20:40:52.428 +08:00] [INFO] [util.go:51] ["Welcome to Placement Driver (PD)"]
[2020/04/27 20:40:52.428 +08:00] [INFO] [util.go:52] [PD] [release-version=v3.1.0]
[2020/04/27 20:40:52.428 +08:00] [INFO] [util.go:53] [PD] [git-hash=8b7475c6bfd60f72f1c1fa166e81887c3608a961]
[2020/04/27 20:40:52.428 +08:00] [INFO] [util.go:54] [PD] [git-branch=heads/refs/tags/v3.1.0]
[2020/04/27 20:40:52.428 +08:00] [INFO] [util.go:55] [PD] [utc-build-time="2020-04-16 09:19:34"]

抱歉,忘记回复了,从日志中看,昨天 8点40 pd 出现了重启,drainer 同一时刻报错连不上PD。

后面 drainer 起不来,能否提供下起不来的 drainer 和 pd 的日志看下。

pd.log (3.3 MB) drainer.log (868.2 KB)

收到,正在分析,请稍等

你好,

可能不没有表述清楚,从上传的 drainer.log 中看到 drainer 报错还停留下 [2020/04/27 20:40:52.072 +08:00],此时 pd 是重启的,所以问题已经定位。

现在的目标是将 drainer 恢复正常,请看下面的描述:

  1. 尝试再次启动 drainer ,如果启动失败请上传 drainer.log
  2. 重启 drainer 前,确认 pd 状态是否正常,如果 drainer 启动失败,请看 pd.log 中是否存在对应的日志,请一并上传。

这个我重新又部署了一个全新的,那个问题跳过了。不好意思啊!

好的,

感谢配合,有问题可以开新帖继续讨论