tidb升级v3.0.7后cpu usage明显增长

  • 【TiDB 版本】:v3.0.7
  • 【问题描述】: 升级v3.0.7后,CPU Usage明显增高

    图片为近15天cpu usage监控项情况,近期有两次升级操作

12月17日由v2.1.8升级至v3.0GA

12月24日由v3.0GA升级至v3.0.7

其中cpu usage明显增长时间与升级至v3.0.7时间匹配

在tidb中执行show processlist可排除有大sql执行使cpu usage增长

tidb.log未发现明显异常

升级在之前3.0GA的基础上也没修改过tidb的配置

附件为配置信息tidb.toml (1.1 KB)

我觉得跟sql关系不大

1.业务场景并没有随着集群升级有什么新的变化

2.升级后cpu一直高,如果是sql产生的问题应该是有高有低的

3.show processlist查看没有sql执行的时候cpu也很高

观察下 conn、qps 和 tps 的变化,同时可以看下 processlist 有无执行时间很长的查询

  • 服务器上敲 top -H,看是什么占用这么多的 CPU?
  • 如果是 TiDB-server 进程,可以抓下火焰图给我们分析下:
http://{TiDBIP}:10080/debug/pprof/profile

image

火焰图见附件

profile (25.9 KB)

  • 发下 TIDB-server 的监控,将监控面板 d+E 打开,然后用一些浏览器页面打印 pdf 的方式,导出。
  • 我们当前多少连接数?

15天内的监控情况,QPS与conn无明显变化,Transaction OPS的commiit general与commit internal是升级后开始有值的

  • SQL 响应和 slow query 监控面板也发下。

  • internal 是我们分出来的监控,是 TiDB 内部 SQL 的架空
  • 能否发下 TiDB Owner 的日志和慢日志。我们这边分析下。

tidb Owner的日志在哪?log目录里没看到

然后呢,找到节点了,但是仍然没看到owner log

  • owner 是角色,owner log 要的是 owner 角色 tidb 的 log。:joy:

好的,日志可能比较敏感,已微信发送

@alwaystest Hi 可以再帮多抓2个 profile 我们对比确认下。。

看这个 profile 时间主要用在 用统计信息划分 range 的部分

但不确定是不是只反映了抓取那时的情况,可以帮忙再多抓两个 看看 多谢

profile (1) (23.2 KB)

CPU usage 高是 TiDB 还是 TiKV 高?可以从 tidb 和 tikv 各自的监控分别看一下

24 号从 3.0 GA 升级到 3.0.7 时,有配置项变更吗?