分区表的一个SQL偶尔变得很慢

yilong · 2020 年9 月 15 日 07:17

从9.8 的日志来看 tikv 没有 slow-query 表，但是 tidb 中在 15：27 有慢的日志，这个比较奇怪。确认 tikv 时间是相差12小时吗？这些是正确的tidb和tikv 对应的日志吗？
这个集群是 4.0 的集群，和 9.1 号有大查询导致问题的不是同一个集群吧？方便发一下监控，我们再查下吗？
over-view，tidb，detail-tikv 在9.8 号这个时间段的监控，多谢。

Mingdr · 2020 年9 月 15 日 09:28

1：日志是从tidb的dashboard下载的，时间肯定是对的，我看了集群的时间都是一致的
2：生产的是3.0，本地是4.0，但是都出现了同样的问题，监控截图在回帖上面有的，那个时间段也是有这个SQL问题。

yilong · 2020 年9 月 15 日 12:42

这个监控是当时查看的 3.0 的正式环境吧，查看到的问题是由于有大 sql 扫描了很多索引导致
现在您反馈本地 4.0 环境没有这个大 sql，也会慢，但是查看 tikv log 没有 slow-query，所以请帮忙反馈下 9.8 号 15：27 这个时间段的监控信息，辛苦。

Mingdr · 2020 年9 月 16 日 06:03

照片太大，我上传到了网盘，谢谢
链接: 百度网盘-链接不存在提取码: n4wi

yilong · 2020 年9 月 16 日 09:13

查看 9.8 号 15：27 出问题时间段的监控信息

查看 tidb duration 信息

image1437×418 132 KB
tikv 99 duration

image1683×573 157 KB
查看 coprocessor duration 信息

image1701×569 118 KB
查看耗时还是在 index 这里

image1713×576 120 KB
感觉和之前分区的差不多，可以找一下，感觉应该还是有大sql在出问题附近。

Mingdr · 2020 年9 月 16 日 09:14

但是这个时间段的慢SQL也发了，没有其他的大SQL，而且本地就我一个人在做用，没有其他的大SQL了

yilong · 2020 年9 月 17 日 13:54

我今天查看了下，觉得和之前不一样的地方在于，上次的监控里，coprocessor是在问题发生时刻，index 才多的，这次的监控感觉一直很多。并且问题发生时，不但读流程，写流程也是变慢了。还有一点是 IO 在问题发生的时间段有一个突增，达到了 50% 多，应该在这个时间段是有一个占用大量 IO 的操作。猜测一下，不知道是不是这个时间段并发突然增多了呢？因为日志里确实没有某个大sql

Mingdr · 2020 年9 月 18 日 01:57

这个时间段一直在做这个SQL的并发测试，所以应该是一直很多，只不过测试到这个时间点了，就发生了慢SQL，之前并没有，但是测试一直没停。另外系统那个时间段只做了那个SQL的并发测试，其他都没运行

yilong · 2020 年9 月 19 日 04:04

好的，我们再看看是否还有其他信息。另外，这个问题多次出现的话，其他出现的时候，是否能再 tikv.log 日志中找到 slow-query 的信息？

Mingdr · 2020 年9 月 22 日 02:09

我再测试一次看看有没有，正式的3.0.8好像就没有

Mingdr · 2020 年9 月 22 日 06:30

这个是今天测试的：

这个是当时的日志：
logs (1).tar (215 KB)

yilong · 2020 年9 月 22 日 14:10

好的，我们分析后会尽快答复

Mingdr · 2020 年9 月 23 日 01:47

如果你们有tidb的集群，我可以提供测试脚本，这种情况基本都是肯定会出现的，脚本是python测试的

yilong · 2020 年9 月 23 日 03:32

从日志看，有可能是压力大，另外日志比较少，没法搜索是否有slow-query 的日志。

image2035×42 17.4 KB
集群的硬件和软件环境都不一样，不一定可以复现和您一样的内容，如果方便的话，提供可以访问的监控链接，我们查看下，比较方便，也方便其他同事查看，多谢。

Mingdr · 2020 年9 月 23 日 05:55

我搞个花生壳把端口映射出来吧

http://153995qc45.eicp.vip/dashboard/

yilong · 2020 年9 月 23 日 07:22

收到，感谢