集群中单个pd cpu高

TiDBer_yangxi · 2023 年4 月 12 日 07:32

【 TiDB 使用环境】生产环境
【 TiDB 版本】
【复现路径】做过哪些操作出现的问题
【遇到的问题：问题现象及影响】
【资源配置】
pd和tidb，dm的worker还有cdc都部署在一起，dm有一个任务的source在这个ip上
【附件：截图/日志/监控】

集群中会有：
[2023/04/11 08:43:52.845 +08:00] [WARN] [pd.go:99] [“get timestamp too slow”] [“cost time”=163.587758ms]
[2023/04/11 15:49:35.916 +08:00] [WARN] [pd.go:99] [“get timestamp too slow”] [“cost time”=175.792499ms]
[2023/04/11 16:22:15.079 +08:00] [WARN] [pd.go:99] [“get timestamp too slow”] [“cost time”=167.28991ms]
[2023/04/11 16:31:47.103 +08:00] [WARN] [pd.go:234] [“get timestamp too slow”] [“cost time”=142.124023ms]
[2023/04/11 17:02:24.281 +08:00] [WARN] [pd.go:99] [“get timestamp too slow”] [“cost time”=171.315344ms]
[2023/04/11 18:10:14.655 +08:00] [WARN] [pd.go:99] [“get timestamp too slow”] [“cost time”=222.338775ms]

怀疑是这个pd导致的

dbaspace · 2023 年4 月 12 日 07:38

按这3个排查下：
1、PD使用CPU最少4C
2、是不是存在tikv重启
3、混合部署下，看看网络是不是存在压力
解决：
如果当前有影响写入，集群变慢，或提示9001异常，可以选择切换下PD LEADER看看

tidb狂热爱好者 · 2023 年4 月 12 日 07:38

混合部署容易干掉自己的工作

tidb菜鸟一只 · 2023 年4 月 13 日 00:31

其他所有的pd都是混合部署的吗？其他机器的负载情况怎么样？如果空闲的话，切换下leader到其他PD节点看看

xingzhenxiang · 2023 年4 月 13 日 06:11

如果是leader的话切换一下试试，不是的话就扩容到别的机器，然后缩容这个pd

TiDBer_yangxi · 2023 年4 月 13 日 07:04

主要是查get timestamp too slow ，看到这台leader pd-server的cpu高一点，其2台也都是混布的，但是pd-server的cpu很低，就是不知道这种leader算不算正常，3台机器的整体cpu都不高10%都不到

knull · 2023 年4 月 18 日 10:11

可以查看对应时间点下监控 performance-overview 下的 “pd tso wait/rpc duration”如下图：

TiDBer_qijtMMBk · 2023 年12 月 15 日 10:08

遇到了同样的问题，有解决吗

zxgaa · 2023 年12 月 15 日 12:39

tikv吃CPU

Kongdom · 2023 年12 月 15 日 14:06

建议开新贴寻求帮助，新贴能获得更多关注。

你也是混布么？建议不要混布，或者进行资源控制，避免资源争用。