pd 在夜间down了,不知道什么原因

【 TiDB 使用环境】测试
【 TiDB 版本】7.5.0
【复现路径】pd在凌晨1点多时,不知道为什么挂掉了,pd日志如下:

[2024/05/08 01:27:00.398 +08:00] [INFO] [grpc_service.go:1948] ["update service GC safe point"] 
[service-id=gc_worker] [expire-at=-9223372035139672989] [safepoint=449603756461391872]
[2024/05/08 01:28:40.520 +08:00] [INFO] [grpc_service.go:1893] ["updated gc safe point"] [safe-p
oint=449603756461391872]
[2024/05/08 01:37:00.396 +08:00] [INFO] [grpc_service.go:1948] ["update service GC safe point"] 
[service-id=gc_worker] [expire-at=-9223372035139672389] [safepoint=449603913747791872]
[2024/05/08 01:38:37.465 +08:00] [INFO] [lease.go:187] ["stop lease keep alive worker"] [purpose
="leader election"]
[2024/05/08 01:38:37.466 +08:00] [INFO] [allocator_manager.go:772] ["exit allocator daemon"] []
[2024/05/08 01:38:37.466 +08:00] [INFO] [coordinator.go:160] ["patrol regions has been stopped"]
[2024/05/08 01:38:37.466 +08:00] [INFO] [coordinator.go:344] ["drive slow node scheduler is stop
ped"]
[2024/05/08 01:38:37.466 +08:00] [INFO] [coordinator.go:326] ["drive push operator has been stop
ped"]
[2024/05/08 01:38:37.466 +08:00] [INFO] [allocator_manager.go:316] ["exit allocator loop"] []
[2024/05/08 01:38:37.466 +08:00] [INFO] [scheduler_controller.go:364] ["scheduler has been stopp
ed"] [scheduler-name=balance-hot-region-scheduler] [error="context canceled"]
[2024/05/08 01:38:37.466 +08:00] [INFO] [coordinator.go:374] ["coordinator is stopping"]
[2024/05/08 01:38:37.466 +08:00] [INFO] [scheduler_controller.go:364] ["scheduler has been stopped"] [scheduler-name=balance-leader-scheduler] [error="context canceled"]
[2024/05/08 01:38:37.466 +08:00] [INFO] [main.go:284] ["got signal to exit"] [signal=hangup]
[2024/05/08 01:38:37.466 +08:00] [INFO] [server.go:127] ["region syncer has been stopped"]
[2024/05/08 01:38:37.466 +08:00] [INFO] [scheduler_controller.go:364] ["scheduler has been stopped"] [scheduler-name=transfer-witness-leader-scheduler] [error="context canceled"]

随后的日志都是在stop各个模块,是否跟里面的这几个日志提示有关?
stop lease keep alive worker
drive slow node scheduler is stop
drive push operator has been stop
【遇到的问题:问题现象及影响】pd在凌晨挂掉,应该如何进一步排查原因?这似乎不是第一次发生

:thinking:凌晨一点,是不是有定时作业?

数据库本身没有定时作业,业务上也是没有的

感觉需要看代码了,正常pd 都很稳定,你这网络正常吗?

现有信息看不出什么原因,能再详细点吗?

看一下pd_stderr.log 日志有没有输出什么信息

这个代表 pd 是收到操作系统的退出信号退出的,去看操作系统日志吧,看下是不是触发了oom-killer

服务器那段时间的资源监控看一下呢

虚拟机环境么?我们遇到过一次虚拟机,因为别的虚拟机晚上要做备份,会将资源都倾斜过去,导致tidb所在虚拟机资源不足。

会是GC触发的吗?

我看了下,似乎没有oom-killer

不是虚拟机,机器性能是不错的,160G内存64核

当时的资源情况目前应该看不了了,我的服务器配置不错,160G内存,64核

我是装在单机上,网络应该不影响

pd_stderr.log没看到有错误

dashboard看下凌晨一点左右有慢sql吗,以及相关日志模块搜索该时间点左右的error级别的日志信息

你这是playground 部署的? 是可能多个组件在一台资源抢占了吧

你是多个组件放到一个机器了吧,看下其他组件的资源使用情况吧

操作系统切日志了吗

复述下题主的背景情况。单机混合部署tidb测试集群。晚上固定时间1点多 pd会挂掉。 1.没有批处理 。 2,测试环境 业务没有大的数据处理情况。3.查看系统日志 没发现异常信息。
截图中info日志 也没什么特别。
除了tidb外有没有部署其他的系统?tidb有没有特别的配置,比如 资源控制? 另外通过crontab -e 查看下有没有特殊的定时作业。如果发生问题的时间有固定规律,一般是人为的配置导致。