某个tikv的CPU异常

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

看起来是有热点问题,可以先按照篇文章进行排查

我再次通过这篇文章来排除是否是热点问题。从目前来看。现在有两个tikv监控项有异常。就详见图

异常具体指的?

某个tikv的CPU异常,我现在初步判断不像是热点问题引起的。

  1. 是指 tikv5 在 11:00 〜11:10 之间的 grpc poll CPU 有下跌?
  2. 还是指 Coprocessor CPU 分布不均衡?

一个月前我发帖说我们的某个tikv的CPU负载异常,当时给我的说法就是说有可能是热点问题引起的。 今天我再次来排查这个问题,发现很多指标都不符合热点问题引起的特征,所以我今天来发帖继续来问题这个问题。 现在就通过监控来发现其他的监控指标的各个节点都没什么异常, 唯独Coprocessor CPU 在tikv1这个节点明显比tikv4,tikv5的CPU要高,而且在tikv的这个节点显示 cop-normalX这种线程占用CPU特高,所以想请问你们一下有可能是什么原因。

  1. 请查看一下监控指标里有没有热点 Region,具体信息参考 或者是 工具

从这张图来年在凌晨3:00〜4:00 之间确实有较多的热点写入,而且 tikv1 与 其他两个有 100 倍的差距,但其他时间段没有看到,也请提供一下 QPS ,CPU,Memory 相关信息,看看是否有访问量上不均衡

凌晨3~4点在跑脚本。 机器配置都是:8核32G,固态硬盘。阿里云主机 qps见下图

嗯,3〜 4 点能明显看到有写入写点,但之后其实没有看到明显的热点,所有需要从访问量上来看一下,需要提供一下 TiDB 的 QPS、CPU,Memory、网络相关的信息

qps :

cpu: memory: network:

  1. 能给一下 tikv-summary 中每个 tikv 节点的 QPS 吗?
  2. 10.14.200.139 是对应的 tikv1 吗?

200.139是一个tidb-server节点,不是tikv1节点。 这个是你想要的每个tikv的qps 图吗?

  • 请查看 TiKV 监控里 gRPC message count 上的 coprocessor request 的请求分布是否和 CPU 使用的分布对得上,如果是的很可能是因为有读热点造成的
  • 确认 3 台 tikv 的 leader 分布是均匀的
  • 通过工具查看是否有热点 region, 相关方法和处理方式可以参考: 常见热点问题处理

@liaoxuefeng

1 我这边监控只能看到这个指标,看不到coprocessor request 的请求分布。见下图:9日00:00~~12:00数据:

2 leader的分布我看是比较均匀的。见下图:9日00:00~~12:00数据:

3 你给的 【常见热点问题处理】 中的版本是3.0,我这边使用的是2.1。

@飞与非-PingCAP @nolouch-PingCAP 能帮忙看下问题吗?

编辑一下 grpc message count 的 query 语法

看一下具体是那个 tikv server 导致,然后查看一下 tikv log 里面有没有 slow query 或者 expensive log 的日志,里面会有对应的 table id

然后通过 tidb-ansible/scripts/table-regions.py 脚本查看一下 table region 分布,确认一下分布是否均衡。

  • #1 抱歉,我这边对Grafana不是很熟悉,所以编辑query语法后显示没有数据。(我的tidb的版本是2.1) 如下如:
  • #2 没看到相关慢查询日志
  • #3 我使用 tidb-ansible/scripts/table-regions.py的脚本把所有表的的table region分布都扫了一遍,发现基本上都均衡的。