【TiDB 使用环境】生产环境
【TiDB 版本】7.5,.3
【操作系统】
【部署方式】机器部署
【集群数据量】
【集群节点数】
【问题复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【复制黏贴 ERROR 报错的日志】
【其他附件:截图/日志/监控】
目前因为store节点 “tikv request duration 99 by store” 响应时间过长导致了 99查询变长导致集群受影响,故直接快速的 登录节点之后 执行 systemctl stop tikv.service 停止了该节点
[2025/05/28 14:46:16.369 +08:00] [INFO] [compact.rs:147] ["compact range finished"] [time_takes=155.723334589s] [cf=write] [range_end=7A7480000000000001FF015F7280000001CAFF01AD560000000000FA] [range_start=7A7480000000000000FFC15F7280000001BCFF1DF50B0000000000FA] [thread_id=250]
[2025/05/28 14:46:16.369 +08:00] [ERROR] [cleanup_snapshot.rs:151] ["send StoreMsg::GcSnapshotFinish failed"] [err_code=KV:Raftstore:Transport] [err=Transport(Disconnected)] [thread_id=250]
[2025/05/28 14:46:16.421 +08:00] [INFO] [future.rs:191] ["stoping worker"] [worker=waiter-manager] [thread_id=1]
[2025/05/28 14:46:16.425 +08:00] [INFO] [future.rs:191] ["stoping worker"] [worker=deadlock-detector] [thread_id=1]
[2025/05/28 14:46:16.437 +08:00] [INFO] [checkpoint_manager.rs:67] ["subscription manager exit."] [thread_id=240]
[2025/05/28 14:46:16.558 +08:00] [INFO] [mod.rs:258] ["Storage stopped."] [thread_id=1]
[2025/05/28 14:46:16.921 +08:00] [ERROR] [kv.rs:1124] ["KvService response batch commands fail"] [err="\"SendError(..)\""] [thread_id=1]
然后执行 tiup cluster display xxx-tidb 看到节点的状态是 Down的
192.168.1.66:20162 tikv 192.168.1.66 20162/20182 linux/x86_64 Down /data2/tidb-data /opt/app/tidb-deploy/tikv-20162
检查这个store的信息也是Down的
"id": 2, "address": "192.168.1.66:20162", "state_name": "Down" "capacity": "3.438TiB", "available": "2.126TiB", "used_size": "1.012TiB",
从其他监控看到这个节点也没有请求
为何“tikv request duration 99 by store” 还有监控数据?