升级到7.5.1版本后tidb_server_connections指标获取异常

dba-kit · 2024 年3 月 12 日 06:39

如图，连接总数是338，但是通过/metrics接口，得到的值为1，感觉很像活跃连接数的值

Daniel-W · 2024 年3 月 13 日 08:36

换个tidb-server节点curl一下试试？

Jiawei · 2024 年3 月 13 日 08:40

或者netstat 过滤一下看看真正建立的连接有哪些，感觉直接查应该是整个集群的连接数，
下面的curl拿到的应该只是单个对应的连接数。
再或者看下监控里面连接数的取值是哪个

buddyyuan · 2024 年3 月 13 日 09:37

看下其他指标是正常的吗？比如 tidb_server_tokens，这个是看活动会话数的。

TiDBer_5cwU0ltE · 2024 年3 月 13 日 09:40

告警日志内或许有能够提示的信息。

redgame · 2024 年3 月 14 日 00:47

升级过程中有配置过这个不

dba-kit · 2024 年3 月 15 日 09:59

不过奇怪，同一个集群里有多个tidb-server，其中有一台机器上的指标是正常的，只有一个default的指标

其他异常的节点，还会上报一个不带resource_group label的metrics。

dba-kit · 2024 年3 月 15 日 10:19

对比了下配置，发现其他几个tidb-server都配了instance.tidb_force_priority这个参数，而指标正常的tidb-server没有配置。我周末去掉一下，再来观察下。

aytrack · 2024 年3 月 19 日 07:46

这是个 bug，后面这个 issue 跟踪： https://github.com/pingcap/tidb/issues/51889
在 graceful shutdown 增强引入的问题（https://github.com/pingcap/tidb/pull/32111)。给 resource group 加相关的 metric https://github.com/pingcap/tidb/pull/49424 加了监控后，暴露出来了这个问题

Jellybean · 2024 年3 月 19 日 09:21

大佬很细心，捉虫小能手

田帅萌7 · 2024 年3 月 25 日 08:26

一样的问题
Connection Count ip重复

临时解决办法：tidb_server_connections{k8s_cluster=“$k8s_cluster”, tidb_cluster=“$tidb_cluster”, resource_group=“default”}

dba-kit · 2024 年3 月 25 日 10:51

我是直接group by sum了一下，数据量还是不对，只不过每个instance只会有一条线了
sum(tidb_server_connections{cluster="$tidb_cluster"}) by (instance)

dba-kit · 2024 年5 月 24 日 10:52

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。