集群中单个pd cpu高

【 TiDB 使用环境】生产环境
【 TiDB 版本】
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
【资源配置】
pd和tidb,dm的worker还有cdc都部署在一起,dm有一个任务的source在这个ip上
【附件:截图/日志/监控】



集群中会有:
[2023/04/11 08:43:52.845 +08:00] [WARN] [pd.go:99] [“get timestamp too slow”] [“cost time”=163.587758ms]
[2023/04/11 15:49:35.916 +08:00] [WARN] [pd.go:99] [“get timestamp too slow”] [“cost time”=175.792499ms]
[2023/04/11 16:22:15.079 +08:00] [WARN] [pd.go:99] [“get timestamp too slow”] [“cost time”=167.28991ms]
[2023/04/11 16:31:47.103 +08:00] [WARN] [pd.go:234] [“get timestamp too slow”] [“cost time”=142.124023ms]
[2023/04/11 17:02:24.281 +08:00] [WARN] [pd.go:99] [“get timestamp too slow”] [“cost time”=171.315344ms]
[2023/04/11 18:10:14.655 +08:00] [WARN] [pd.go:99] [“get timestamp too slow”] [“cost time”=222.338775ms]

怀疑是这个pd导致的

按这3个排查下:
1、PD使用CPU最少4C
2、是不是存在tikv重启
3、混合部署下,看看网络是不是存在压力
解决:
如果当前有影响写入,集群变慢,或提示9001异常,可以选择切换下PD LEADER看看

混合部署容易干掉自己的工作

其他所有的pd都是混合部署的吗?其他机器的负载情况怎么样?如果空闲的话,切换下leader到其他PD节点看看

如果是leader的话切换一下试试,不是的话就扩容到别的机器,然后缩容这个pd

主要是查get timestamp too slow ,看到这台leader pd-server的cpu高一点,其2台也都是混布的,但是pd-server的cpu很低,就是不知道这种leader算不算正常,3台机器的整体cpu都不高10%都不到

可以查看对应时间点下监控 performance-overview 下的 “pd tso wait/rpc duration”如下图:

遇到了同样的问题,有解决吗

tikv吃CPU

建议开新贴寻求帮助,新贴能获得更多关注。

你也是混布么?建议不要混布,或者进行资源控制,避免资源争用。