监控指标 gRPC request sources 中存在 unknown 类型

TiDBer_c3TScFy1 · 2024 年11 月 8 日 03:46

【 TiDB 使用环境】生产环境
【 TiDB 版本】v8.1.1
【复现路径】
无额外操作，部署完毕后即投入线上使用。
【遇到的问题：问题现象及影响】
【资源配置】
集群拓扑如下，通过 JuiceFS 直连pd。

【附件：截图/日志/监控】

xfworld · 2024 年11 月 10 日 00:18

有其他的异常情况么

pingyu · 2024 年11 月 11 日 00:43

JuiceFS 用的 client-go 是什么版本？

应该统计的是 gRPC Context.request_source，由 client-go 填入。

TiDBer_c3TScFy1 · 2024 年11 月 11 日 02:34

一些客户端偶有慢请求日志，比如获取TSO缓慢（200ms左右），或者是getTS超时。

xfworld · 2024 年11 月 11 日 02:41

这个要看网络配置和磁盘配置情况，可以查下 IO

TSO 获取后面的版本是batch 的方式获取的，而且是异步的，不会阻塞

TiDBer_c3TScFy1 · 2024 年11 月 11 日 02:48

单纯这个指标对集群状态没有参考价值吗？

如果要判断集群整体请求响应时间，参考哪个指标会比较有价值？

TiDBer_c3TScFy1 · 2024 年11 月 11 日 02:48

v2.0.4

xfworld · 2024 年11 月 11 日 06:38

看这个吧，内容会更全

有猫万事足 · 2024 年11 月 11 日 07:10

pd跨子网了？到pd ping值多少？

tso慢一般来说就是网络不行，pd leader和其他什么组件混合部署了，导致cpu时间不够。

TiDBer_c3TScFy1 · 2024 年11 月 12 日 03:51

时延在1ms以内，我也不确定tso和这个监控指标之间的联系。

我现在的核心问题之一就是这个unknown的指标到底是什么含义？为什么会出现这个指标呢？

TiDBer_c3TScFy1 · 2024 年11 月 12 日 03:53

之前也有用过 juicefs+tikv 的架构，但就没出现过这个unknown的指标。当时的版本貌似才5.几的样子。

pingyu · 2024 年11 月 12 日 04:14

JuiceFS 有没有调用 KVTxn.SetRequestSourceType 设置 source？如果没有的话，client-go 就会上报 unknown，也就是在 TiKV 的监控里看到的 unknown

TiDBer_c3TScFy1 · 2024 年11 月 12 日 13:19

我在JuiceFS源码里目前没有看到。

所以我应当如何理解 gRPC request sources duration 这个指标呢？可以认为是tikv在某一时刻，所接收到的请求，从接收到处理完毕所花费的服务端总时长吗？

pingyu · 2024 年11 月 12 日 13:43

这个指标的意思是每秒 TiKV 处理这种类型请求的总时长。用于观察不同请求的占比

跟单个请求的处理“延迟”或者“耗时”是不同的概念

TiDBer_c3TScFy1 · 2024 年11 月 13 日 02:31

明白了，感谢。

system · 2024 年11 月 20 日 02:31

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。