TiDB & TiFlash V6.1.1
我这有一个SQL,一运行就会把TiFlash线程数打爆
数据量并不大,估计是触发了bug
我注意到有这么一个6.1.1已解决的issue,和我这个问题类似:
https://github.com/pingcap/tiflash/issues/5556
但是升级到6.1.1之后,问题依然存在,如下图:
SQL比较复杂见附件,无法简化(简化后不出这个问题)
而且和数据有关,同样的SQL,在测试环境数据不同,不出此问题
err_sql.txt (6.9 KB)
抱着一线希望来问一下,有没有专家能够指导解决
Hi, 能否把 explain SQL 的结果也发一下
sorry 看到的晚了
explain结果见附件,explain analyze跑不出来结果,报错线程资源耗尽
explain.txt (195.1 KB)
你好,感谢反馈,能否发下报错线程耗尽时的 tiflash summary 监控中的 coprocessor 面板;
可以用 PingCAP MetricsTool 这个工具把 tiflash summary 和 tiflash proxy details 的出问题附近时间段的监控全部导出一下。
我来补充信息了,sorry晚了些,集群刚跑完压测空出来
发现了更多有趣的信息:
-
刚跑完压测,没动集群,跑原来异常的SQL,不出错了,explain analyze的结果如下:
explain_analyze.txt (291.0 KB)
-
重启tiflash,再跑,依然不出错
-
重启整个集群,再跑,错误出现,有2个节点用掉了5k多个线程不释放
截图和metrics如下
mc-TiFlash-Summary_2022-09-21T09_47_41.154Z.json (478.6 KB) mc-TiFlash-Proxy-Details_2022-09-21T09_48_24.701Z.json (700.9 KB)
-
继续多次执行该SQL,又不出问题了,可正常返回结果,线程数也没有变化