4.0.8版本show pump/drainer status的一个报错:context deadline exceeded

【集群环境】
4.0.8版本,集群A、B都是3tidb 3pd 9tikv架构,共3台服务器,每台1tidb 1pd 3tikv,资源较充足。
目前观察到2个集群(A和B)出现过下述异常现象。其他集群也可能存在不方便一一测试。
集群A从未安装过binlog组件,集群B正在使用到kafka的同步(pump+drainer)。
【异常现象】
通过mysql命令行执行: show pump/drainer status; 3个tidb中有一个会报context deadline exceeded的报错,具体截图见下文。剩下2个tidb节点执行命令无异常。
3个节点执行其他常见指令也都正常。
【错误截图】
image
pd日志无异常,命令执行期间全部是正常的INFO级别的leader transfer信息,且频率较低。
tidb日志只有一条相关报错(INFO级别),前后也全部都是正常的INFO日志。


【其他】
出问题的tidb节点,配置文件与其他节点一样,目前看来A、B两集群在此问题上的共同之处为:出问题的节点上都有prometheus和grafana混部。暂未尝试迁走tidb节点。

每台1tidb 1pd 3tikv,资源较充足

什么硬件配置? 上了numa 没? 集群什么状态?

所有机器配置相同40core 500GB内存,分配给集群的一半多些,剩下的空置。默认2个numa node,集群状态正常。

没有更多的信息补充么?

嗯 暂未发现其他异常

麻烦把命令执行报错期间完整的 tidb 日志和 pd 日志提供下,多谢。

重启tidb问题节点后问题消失:smile:

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。