集群空负载下CPU持续100%

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:

【TiDB 版本】v4.0.10

【问题描述】集群采用混合部署,在空负载下一台机器CPU持续100%。




若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

如果是 dev 或 qa 环境建议按照官方推荐环境部署
https://docs.pingcap.com/zh/tidb/stable/hardware-and-software-requirements#开发及测试环境

并且强烈不建议 所有组件进行混合部署。混合部署拓扑请参照如下文档
https://docs.pingcap.com/zh/tidb/stable/hybrid-deployment-topology

tiflash 强烈建议单独部署

1.您能给大概讲下原因吗,为什么Tiflash这么吃CPU,我只开启了一张表同步一个Tiflash副本,同步完成后TiFlashMain还是占用非常高的CPU,数小时后不释放;
2.麻烦问下grpcpp_sysnc_ser这个线程是干嘛的;
3.后续我司可能大规模使用Tidb,数据量在PB,考虑跟贵公司进行进一步合作,能否给个联系方式。

Yulong Li (李玉龙 )

Business Consulting Team Leader

Enterprise and Partner Group.

(+86) 186-1059-9822

商务咨询电话:400 6790 886

+8610-58400041

PingCAP Ltd. www.pingcap.com

1.TiFlash 由多个部分组成 其中包括 Raft 同步组件 ,存储组件与计算组件。为了保证 数据的一致性 同步组件要与 TikV 保持实时的 feedback
2.你看到的cpu 高的组件也就是 Raft 同步组件

1 个赞

请问现在负载是否恢复正常?能否帮忙导出下tiflash的监控,或者 curl “http://${tiflash-status-address}/debug/pprof/profile?seconds=20&frequency=99” 抓下火焰图

正常了 那台机器cpu 100%后死机了 强制重启了tiflash后好了

可否帮忙导出异常时的监控和日志 以便我们后续排查问题

你需要哪些信息,怎么导出。
等我调研完成后,我可以再复现下导出给你,预计下周4,5。

您方便的时候可参照 https://metricstool.pingcap.com/#backup-with-dev-tools 导出 tiflash-proxy-detail tiflash-proxy-summery tiflash-summery 的监控。对于 cpu 占用高的情况,可以 访问 http://${tiflash-status-address}/debug/pprof/profile?seconds=20&frequency=99 获取实时火焰图。

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。