tikv节点故障之后，为何“tikv request duration 99 by store” 还有监控数据？

老鹰506 · 2025 年5 月 28 日 08:50

【TiDB 使用环境】生产环境
【TiDB 版本】7.5,.3
【操作系统】
【部署方式】机器部署
【集群数据量】
【集群节点数】
【问题复现路径】做过哪些操作出现的问题
【遇到的问题：问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【复制黏贴 ERROR 报错的日志】
【其他附件：截图/日志/监控】

目前因为store节点 “tikv request duration 99 by store” 响应时间过长导致了 99查询变长导致集群受影响，故直接快速的登录节点之后执行 systemctl stop tikv.service 停止了该节点

[2025/05/28 14:46:16.369 +08:00] [INFO] [compact.rs:147] ["compact range finished"] [time_takes=155.723334589s] [cf=write] [range_end=7A7480000000000001FF015F7280000001CAFF01AD560000000000FA] [range_start=7A7480000000000000FFC15F7280000001BCFF1DF50B0000000000FA] [thread_id=250]
[2025/05/28 14:46:16.369 +08:00] [ERROR] [cleanup_snapshot.rs:151] ["send StoreMsg::GcSnapshotFinish failed"] [err_code=KV:Raftstore:Transport] [err=Transport(Disconnected)] [thread_id=250]
[2025/05/28 14:46:16.421 +08:00] [INFO] [future.rs:191] ["stoping worker"] [worker=waiter-manager] [thread_id=1]
[2025/05/28 14:46:16.425 +08:00] [INFO] [future.rs:191] ["stoping worker"] [worker=deadlock-detector] [thread_id=1]
[2025/05/28 14:46:16.437 +08:00] [INFO] [checkpoint_manager.rs:67] ["subscription manager exit."] [thread_id=240]
[2025/05/28 14:46:16.558 +08:00] [INFO] [mod.rs:258] ["Storage stopped."] [thread_id=1]
[2025/05/28 14:46:16.921 +08:00] [ERROR] [kv.rs:1124] ["KvService response batch commands fail"] [err="\"SendError(..)\""] [thread_id=1]

然后执行 tiup cluster display xxx-tidb 看到节点的状态是 Down的

192.168.1.66:20162  tikv          192.168.1.66   20162/20182  linux/x86_64  Down    /data2/tidb-data                   /opt/app/tidb-deploy/tikv-20162

检查这个store的信息也是Down的

"id": 2,                "address": "192.168.1.66:20162",                "state_name": "Down"            "capacity": "3.438TiB",         "available": "2.126TiB",                "used_size": "1.012TiB",

从其他监控看到这个节点也没有请求

为何“tikv request duration 99 by store” 还有监控数据？

cchouqiang · 2025 年6 月 3 日 02:34

TiDB客户端在访问TiKV时，如果遇到节点不可用的情况，会自动重试其他副本。这些重试请求可能会导致监控数据中仍然显示有请求。KV Request Duration 99 by store 监控指标包括了TiDB Server与TiKV之间的网络传输耗时以及TiKV处理请求的总耗时。