pd 在夜间down了，不知道什么原因

突破边界 · 2024 年5 月 8 日 00:40

【 TiDB 使用环境】测试
【 TiDB 版本】7.5.0
【复现路径】pd在凌晨1点多时，不知道为什么挂掉了，pd日志如下：

[2024/05/08 01:27:00.398 +08:00] [INFO] [grpc_service.go:1948] ["update service GC safe point"] 
[service-id=gc_worker] [expire-at=-9223372035139672989] [safepoint=449603756461391872]
[2024/05/08 01:28:40.520 +08:00] [INFO] [grpc_service.go:1893] ["updated gc safe point"] [safe-p
oint=449603756461391872]
[2024/05/08 01:37:00.396 +08:00] [INFO] [grpc_service.go:1948] ["update service GC safe point"] 
[service-id=gc_worker] [expire-at=-9223372035139672389] [safepoint=449603913747791872]
[2024/05/08 01:38:37.465 +08:00] [INFO] [lease.go:187] ["stop lease keep alive worker"] [purpose
="leader election"]
[2024/05/08 01:38:37.466 +08:00] [INFO] [allocator_manager.go:772] ["exit allocator daemon"] []
[2024/05/08 01:38:37.466 +08:00] [INFO] [coordinator.go:160] ["patrol regions has been stopped"]
[2024/05/08 01:38:37.466 +08:00] [INFO] [coordinator.go:344] ["drive slow node scheduler is stop
ped"]
[2024/05/08 01:38:37.466 +08:00] [INFO] [coordinator.go:326] ["drive push operator has been stop
ped"]
[2024/05/08 01:38:37.466 +08:00] [INFO] [allocator_manager.go:316] ["exit allocator loop"] []
[2024/05/08 01:38:37.466 +08:00] [INFO] [scheduler_controller.go:364] ["scheduler has been stopp
ed"] [scheduler-name=balance-hot-region-scheduler] [error="context canceled"]
[2024/05/08 01:38:37.466 +08:00] [INFO] [coordinator.go:374] ["coordinator is stopping"]
[2024/05/08 01:38:37.466 +08:00] [INFO] [scheduler_controller.go:364] ["scheduler has been stopped"] [scheduler-name=balance-leader-scheduler] [error="context canceled"]
[2024/05/08 01:38:37.466 +08:00] [INFO] [main.go:284] ["got signal to exit"] [signal=hangup]
[2024/05/08 01:38:37.466 +08:00] [INFO] [server.go:127] ["region syncer has been stopped"]
[2024/05/08 01:38:37.466 +08:00] [INFO] [scheduler_controller.go:364] ["scheduler has been stopped"] [scheduler-name=transfer-witness-leader-scheduler] [error="context canceled"]

随后的日志都是在stop各个模块，是否跟里面的这几个日志提示有关？
stop lease keep alive worker
drive slow node scheduler is stop
drive push operator has been stop
【遇到的问题：问题现象及影响】pd在凌晨挂掉，应该如何进一步排查原因？这似乎不是第一次发生

Kongdom · 2024 年5 月 8 日 01:02

凌晨一点，是不是有定时作业？

突破边界 · 2024 年5 月 8 日 02:20

数据库本身没有定时作业，业务上也是没有的

DBAER · 2024 年5 月 8 日 02:27

感觉需要看代码了，正常pd 都很稳定，你这网络正常吗？

呢莫不爱吃鱼 · 2024 年5 月 8 日 02:33

现有信息看不出什么原因，能再详细点吗？

Ming · 2024 年5 月 8 日 03:02

看一下pd_stderr.log 日志有没有输出什么信息

小龙虾爱大龙虾 · 2024 年5 月 8 日 03:09

这个代表 pd 是收到操作系统的退出信号退出的，去看操作系统日志吧，看下是不是触发了oom-killer

TiDBer_QYr0vohO · 2024 年5 月 8 日 03:20

服务器那段时间的资源监控看一下呢

Kongdom · 2024 年5 月 8 日 03:23

虚拟机环境么？我们遇到过一次虚拟机，因为别的虚拟机晚上要做备份，会将资源都倾斜过去，导致tidb所在虚拟机资源不足。

changpeng75 · 2024 年5 月 8 日 05:32

会是GC触发的吗？

突破边界 · 2024 年5 月 8 日 06:25

我看了下，似乎没有oom-killer

突破边界 · 2024 年5 月 8 日 06:28

不是虚拟机，机器性能是不错的，160G内存64核

突破边界 · 2024 年5 月 8 日 06:29

当时的资源情况目前应该看不了了，我的服务器配置不错，160G内存，64核

突破边界 · 2024 年5 月 8 日 06:30

我是装在单机上，网络应该不影响

突破边界 · 2024 年5 月 8 日 06:31

pd_stderr.log没看到有错误

随缘天空 · 2024 年5 月 8 日 07:44

dashboard看下凌晨一点左右有慢sql吗，以及相关日志模块搜索该时间点左右的error级别的日志信息

DBAER · 2024 年5 月 8 日 08:03

你这是playground 部署的？是可能多个组件在一台资源抢占了吧

tidb菜鸟一只 · 2024 年5 月 8 日 08:29

你是多个组件放到一个机器了吧，看下其他组件的资源使用情况吧

小龙虾爱大龙虾 · 2024 年5 月 8 日 13:45

操作系统切日志了吗

The-Fallen-Angel · 2024 年5 月 8 日 14:28

复述下题主的背景情况。单机混合部署tidb测试集群。晚上固定时间1点多 pd会挂掉。 1.没有批处理。 2,测试环境业务没有大的数据处理情况。3.查看系统日志没发现异常信息。
截图中info日志也没什么特别。
除了tidb外有没有部署其他的系统？tidb有没有特别的配置，比如资源控制？另外通过crontab -e 查看下有没有特殊的定时作业。如果发生问题的时间有固定规律，一般是人为的配置导致。