我来补充信息了,sorry晚了些,集群刚跑完压测空出来
发现了更多有趣的信息:
-
刚跑完压测,没动集群,跑原来异常的SQL,不出错了,explain analyze的结果如下:
explain_analyze.txt (291.0 KB) -
重启tiflash,再跑,依然不出错
-
重启整个集群,再跑,错误出现,有2个节点用掉了5k多个线程不释放
截图和metrics如下
mc-TiFlash-Summary_2022-09-21T09_47_41.154Z.json (478.6 KB) mc-TiFlash-Proxy-Details_2022-09-21T09_48_24.701Z.json (700.9 KB) -
继续多次执行该SQL,又不出问题了,可正常返回结果,线程数也没有变化