PD server Goroutine Count 指标异常

【 TiDB 使用环境】生产环境
【 TiDB 版本】V6.5.0
【复现路径】
未作任何操作。用户反馈出现了如下问题:

然后,去排查监控,发现如下异常监控:

日志中,存在 如下ERROR 日志
[2023-08-09 14:41:51]
[heartbeat_streams.go:119] [“send heartbeat message fail”] [region-id=7902052] [error=“[PD:grpc:ErrGRPCSend]send request error: EOF”]

补充说明:
这个集群,作为下游集群,存在从别的集群,到这个集群同步的ticdc 任务!

【遇到的问题:问题现象及影响】 PD server Goroutine Count 指标异常 异常增高
【资源配置】
【附件:截图/日志/监控】

1 个赞

抓下 pd 火焰图,发上来看看有没有研发看看。 这个 pd 试试重启下。

1 个赞

异常发生时的日志,上下文也发发看看

我们也发生同样的问题,最后重启整个集群才好的

查看火焰图

集群负载过高时,PD server 会自动调整调度策略,增加调度器数量,导致 goroutine 数量暴增。看图一CPU负载也是升高状态,基本可以判断事发时有其他负载过高。

curl http://<pd_adress>:<pd_port>/debug/pprof/heap -o heap.log 收下火焰图看看