tiflash 线程资源泄漏问题

TiDB & TiFlash V6.1.1

我这有一个SQL,一运行就会把TiFlash线程数打爆
数据量并不大,估计是触发了bug

我注意到有这么一个6.1.1已解决的issue,和我这个问题类似:
https://github.com/pingcap/tiflash/issues/5556

但是升级到6.1.1之后,问题依然存在,如下图:
image

SQL比较复杂见附件,无法简化(简化后不出这个问题)
而且和数据有关,同样的SQL,在测试环境数据不同,不出此问题

err_sql.txt (6.9 KB)

抱着一线希望来问一下,有没有专家能够指导解决

Hi, 能否把 explain SQL 的结果也发一下

sorry 看到的晚了
explain结果见附件,explain analyze跑不出来结果,报错线程资源耗尽

explain.txt (195.1 KB)

你好,感谢反馈,能否发下报错线程耗尽时的 tiflash summary 监控中的 coprocessor 面板;
可以用 PingCAP MetricsTool 这个工具把 tiflash summary 和 tiflash proxy details 的出问题附近时间段的监控全部导出一下。

好的,现在集群在跑压测,这一两天我扒下来发您

感谢关注

1赞

您好,有没有什么反馈?关于抓取 Metrics?

我来补充信息了,sorry晚了些,集群刚跑完压测空出来

发现了更多有趣的信息:

  1. 刚跑完压测,没动集群,跑原来异常的SQL,不出错了,explain analyze的结果如下:
    explain_analyze.txt (291.0 KB)

  2. 重启tiflash,再跑,依然不出错

  3. 重启整个集群,再跑,错误出现,有2个节点用掉了5k多个线程不释放
    截图和metrics如下



    mc-TiFlash-Summary_2022-09-21T09_47_41.154Z.json (478.6 KB) mc-TiFlash-Proxy-Details_2022-09-21T09_48_24.701Z.json (700.9 KB)

  4. 继续多次执行该SQL,又不出问题了,可正常返回结果,线程数也没有变化

有专家能给指点下吗