4.0.8版本show pump/drainer status的一个报错：context deadline exceeded

realcp1018 · 2021 年11 月 19 日 07:35

【集群环境】
4.0.8版本，集群A、B都是3tidb 3pd 9tikv架构，共3台服务器，每台1tidb 1pd 3tikv，资源较充足。
目前观察到2个集群(A和B)出现过下述异常现象。其他集群也可能存在不方便一一测试。
集群A从未安装过binlog组件，集群B正在使用到kafka的同步(pump+drainer)。
【异常现象】
通过mysql命令行执行: show pump/drainer status; 3个tidb中有一个会报context deadline exceeded的报错，具体截图见下文。剩下2个tidb节点执行命令无异常。
3个节点执行其他常见指令也都正常。
【错误截图】

pd日志无异常，命令执行期间全部是正常的INFO级别的leader transfer信息，且频率较低。
tidb日志只有一条相关报错(INFO级别)，前后也全部都是正常的INFO日志。

【其他】
出问题的tidb节点，配置文件与其他节点一样，目前看来A、B两集群在此问题上的共同之处为：出问题的节点上都有prometheus和grafana混部。暂未尝试迁走tidb节点。

xfworld · 2021 年11 月 19 日 07:48

每台1tidb 1pd 3tikv，资源较充足

什么硬件配置？上了numa 没？集群什么状态？

realcp1018 · 2021 年11 月 19 日 07:52

所有机器配置相同40core 500GB内存，分配给集群的一半多些，剩下的空置。默认2个numa node，集群状态正常。

xfworld · 2021 年11 月 19 日 07:57

没有更多的信息补充么？

realcp1018 · 2021 年11 月 19 日 08:01

嗯暂未发现其他异常

这道题我不会 · 2021 年11 月 24 日 10:04

麻烦把命令执行报错期间完整的 tidb 日志和 pd 日志提供下，多谢。

realcp1018 · 2021 年11 月 24 日 10:59

重启tidb问题节点后问题消失

system · 2022 年10 月 31 日 19:25

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。