TiDB dashboard 调试错误

请问在高级调试 , 手动分析这个页面为什么 tikv 节点的 cpu 报错,并无法查看,我检查了下该实例是没有类似 *.proto 的文件

image

:thinking: /tmp 目录下有么 :thinking: 瞅瞅嘞。你检查该实例是怎么检查的?

手动分析, tmp 下没有

image

还有个信息需要补充,我是单机多实例部署的 tikv

还有找了下其他的集群,集群版本是 6.5.9 ,这次是 Heap 报错了

那就要看部署路径中,对这种临时文件存放的地址是怎么配置的了
默认都是指向 /tmp

这个可能是在 continuous profiling 运行期间曾经在 dashboard 发起了 manual profiling(或者直接调用了 tikv status port 的 /debug/pprof/profile 接口),导致 continuous profiling 所发起的 cpu profiling 无法运行(同一进程同一时间只能处理一个 cpu profiling 请求)。

简单来说 是不是重复调用了抓火焰图 :thinking: 你们持续分析不会开了吧?


可以看下 tikv 这两个关键字日志,有没有 profile 同时拉起的情况 :thinking:

或者看下这个地方的监控:

path=/debug/pprof/profile

在 7.5.1 中持续分析如果打开,手动分析是无法打开的,而持续分析关闭后,相应的 profile 没有清理干净,导致手动分析的 cpu 无法执行成功(我对比了下第一次的持续分析中的 cpu 是可以正常分析的),比较尴尬的是这个结果无法通过手动删除

没有相关的目录

感觉遗留文件应该不会有问题,感觉还是有两个抓火焰图的命令在跑。可能当前已经有抓火焰图的进程了,然后手动又拉了一个导致报错了。

重启了下 TiDB,后续就没有复现

所以重启可以解决 80% 的问题啊。。。

原来重启真的能解决问题 :grin:

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。