并发增加后，联表查询性能变慢

yilong · 2020 年7 月 15 日 03:21

Hacker_zsqW7imZ · 2020 年7 月 15 日 04:03

重新传了

yilong · 2020 年7 月 15 日 07:27

好的，感谢您的反馈，这次从 tidb 监控中看到 execution duration 达到了 5s，稍等我们再分析下继续答复，多谢。

wshwsh12 · 2020 年7 月 15 日 10:17

感谢你的反馈。还有一些信息需要确认下，

请对所有表进行统计信息收集。我看你提供的执行计划中，有一些表的统计信息都是pseudo的，说明该表没有统计信息。在收集完统计信息后，执行计划可能会有所变化。如果执行计划有变化，请提供下新的执行计划。
请问，压测逻辑是怎样的？在压测过程中，只会运行这一类SQL，还是会有其他的负载同时在运行？
请提供一下压测期间的慢日志。通过慢日志，可以具体分析这条 SQL 执行最慢的那几次的具体信息，如执行时间、处理的数据量等等。

Hacker_zsqW7imZ · 2020 年7 月 15 日 12:04

1.有全量收集统计信息的命令吗？只针对这两个表进行了ANALYZE是不会生效的吗？已经对这两个表执行过ANALYZE table xxx，执行后执行计划没有变化。
2.5000个线程无限执行这一条sql。期间没有其他任何sql的执行
3.执行计划没变过，数据量没有变过。只有执行时间变化了。

Hacker_zsqW7imZ · 2020 年7 月 15 日 12:32

wshwsh12 · 2020 年7 月 16 日 04:14

可能是 TiDB 所在机器的 CPU 到瓶颈了。 TiDB 的 CPU 一直在 1200% ，Goroutine 的数量也保持在较高的 6000-7000。

Hacker_zsqW7imZ · 2020 年7 月 16 日 06:01

应该不是cpu到瓶颈了，查单表的时候可以去到1500%上下。
1.降低并发度平均延迟有下降，呈线性。在2到30并发的时候达到最低延迟。
2.目前测试机器已经回收了。无法导出这个了。。。

yilong · 2020 年7 月 16 日 09:36

非常抱歉，这个问题没有找到根因，我这边也没有让第一次就返回足够的信息。如果下次还能测试，麻烦帮忙也反馈下node_exporter的监控，多谢。

Hacker_zsqW7imZ · 2020 年7 月 16 日 12:47

这边通过恢复重启了之前的集群，我抓取了那段时间的node-exporter，麻烦继续帮忙分析一下，谢谢。

wshwsh12 · 2020 年7 月 20 日 02:41

抱歉回复晚了。上边提供的 Node-exporter 的节点是 10.6.0.15 pd 节点的信息，不是 TiDB 示例的 Node-exporter。麻烦帮忙拿下 TiDB 的 Node-exporter…

Hacker_zsqW7imZ · 2020 年7 月 20 日 06:11

拿不到了。。。

yilong · 2020 年7 月 20 日 08:45

抱歉，请下次测试时帮忙收集，多谢。