某个tikv的CPU异常

liaoxuefeng · 2020 年1 月 16 日 07:01

为提高效率，提问时请提供以下信息，问题描述清晰可优先响应。

【TiDB 版本】：5.7.10-TiDB-v2.1.0-5-g4dad722
【问题描述】：某个tikv的CPU异常。

Coprocessor_CPU1904×516 121 KB

qps1882×795 426 KB

若提问为性能优化、故障排查类问题，请下载脚本运行。终端输出的打印结果，请务必全选并复制粘贴上传。

GangShen · 2020 年1 月 16 日 07:25

看起来是有热点问题，可以先按照篇文章进行排查

https://asktug.com/t/tidb/1123

liaoxuefeng · 2020 年3 月 9 日 03:18

我再次通过这篇文章来排除是否是热点问题。从目前来看。现在有两个tikv监控项有异常。就详见图

飞与非-PingCAP · 2020 年3 月 9 日 03:38

异常具体指的？

liaoxuefeng · 2020 年3 月 9 日 05:05

某个tikv的CPU异常，我现在初步判断不像是热点问题引起的。

飞与非-PingCAP · 2020 年3 月 9 日 05:14

是指 tikv5 在 11：00 〜11：10 之间的 grpc poll CPU 有下跌？
还是指 Coprocessor CPU 分布不均衡？

liaoxuefeng · 2020 年3 月 9 日 05:40

一个月前我发帖说我们的某个tikv的CPU负载异常，当时给我的说法就是说有可能是热点问题引起的。
今天我再次来排查这个问题，发现很多指标都不符合热点问题引起的特征，所以我今天来发帖继续来问题这个问题。
现在就通过监控来发现其他的监控指标的各个节点都没什么异常，
唯独Coprocessor CPU 在tikv1这个节点明显比tikv4，tikv5的CPU要高，而且在tikv的这个节点显示 cop-normalX这种线程占用CPU特高，所以想请问你们一下有可能是什么原因。

飞与非-PingCAP · 2020 年3 月 9 日 07:10

请查看一下监控指标里有没有热点 Region，具体信息参考或者是工具

liaoxuefeng · 2020 年3 月 9 日 07:30

飞与非-PingCAP · 2020 年3 月 9 日 07:57

从这张图来年在凌晨3：00〜4：00 之间确实有较多的热点写入，而且 tikv1 与其他两个有 100 倍的差距，但其他时间段没有看到，也请提供一下 QPS ，CPU，Memory 相关信息，看看是否有访问量上不均衡

liaoxuefeng · 2020 年3 月 9 日 08:04

凌晨3~4点在跑脚本。
机器配置都是：8核32G，固态硬盘。阿里云主机
qps见下图

飞与非-PingCAP · 2020 年3 月 9 日 08:23

嗯，3〜 4 点能明显看到有写入写点，但之后其实没有看到明显的热点，所有需要从访问量上来看一下，需要提供一下 TiDB 的 QPS、CPU，Memory、网络相关的信息

liaoxuefeng · 2020 年3 月 9 日 08:45

qps :

cpu:
memory:
network:

飞与非-PingCAP · 2020 年3 月 9 日 08:56

能给一下 tikv-summary 中每个 tikv 节点的 QPS 吗？
10.14.200.139 是对应的 tikv1 吗？

liaoxuefeng · 2020 年3 月 9 日 09:32

200.139是一个tidb-server节点，不是tikv1节点。
这个是你想要的每个tikv的qps 图吗？

nolouch-PingCAP · 2020 年3 月 9 日 12:09

请查看 TiKV 监控里 gRPC message count 上的 coprocessor request 的请求分布是否和 CPU 使用的分布对得上，如果是的很可能是因为有读热点造成的
确认 3 台 tikv 的 leader 分布是均匀的
通过工具查看是否有热点 region, 相关方法和处理方式可以参考：常见热点问题处理

@liaoxuefeng

liaoxuefeng · 2020 年3 月 10 日 01:48

1 我这边监控只能看到这个指标，看不到coprocessor request 的请求分布。见下图：9日00：00~~12：00数据：

2 leader的分布我看是比较均匀的。见下图：9日00：00~~12：00数据：

3 你给的【常见热点问题处理】中的版本是3.0，我这边使用的是2.1。

liaoxuefeng · 2020 年3 月 10 日 05:09

@飞与非-PingCAP @nolouch-PingCAP 能帮忙看下问题吗？

Lucien-卢西恩 · 2020 年3 月 10 日 09:05

编辑一下 grpc message count 的 query 语法

看一下具体是那个 tikv server 导致，然后查看一下 tikv log 里面有没有 slow query 或者 expensive log 的日志，里面会有对应的 table id

然后通过 tidb-ansible/scripts/table-regions.py 脚本查看一下 table region 分布，确认一下分布是否均衡。

liaoxuefeng · 2020 年3 月 10 日 09:59

#1 抱歉，我这边对Grafana不是很熟悉，所以编辑query语法后显示没有数据。（我的tidb的版本是2.1）如下如：
query1884×754 56.3 KB
#2 没看到相关慢查询日志
#3 我使用 tidb-ansible/scripts/table-regions.py的脚本把所有表的的table region分布都扫了一遍，发现基本上都均衡的。

某个tikv的CPU异常

1 我这边监控只能看到这个指标，看不到coprocessor request 的请求分布。见下图：9日00：00~~12：00数据：

2 leader的分布我看是比较均匀的。见下图：9日00：00~~12：00数据：

3 你给的 【常见热点问题处理】 中的版本是3.0，我这边使用的是2.1。

3 你给的【常见热点问题处理】中的版本是3.0，我这边使用的是2.1。