tikv节点负载高,重启恢复,原因分析

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】
【概述】tikv节点down
【背景】正常业务运行
【现象】业务和数据库在3.17 23:47左右响应非常慢,后来发现tikv的一个节点cpu使用率很高,重启恢复
【业务影响】
【TiDB 版本】 5.7.25-TiDB-v4.0.11
【附件】

  1. TiUP Cluster Display 信息

  2. TiUP Cluster Edit Config 信息

  3. TiDB- Overview 监控

  • 对应模块日志(包含问题前后1小时日志)

日志查看:链接:https://pan.baidu.com/s/1sg4B3124LjLoSJwoQE3rXA
提取码:078a
–来自百度网盘超级会员V5的分享

把时间区间内的tikv-details overview tidb pd的监控信息上传下,参考这里https://metricstool.pingcap.com/

1 个赞

Cluster-PD_2022-03-21T10_11_20.653Z.json (129.7 KB) Cluster-TiDB-Summary_2022-03-21T10_10_15.959Z.json (32.2 KB) Cluster-TiKV-Details_2022-03-21T10_09_10.029Z.json (879.6 KB)

1 个赞

还没有看你上传的日志,主要是太大,300MB,还要有个网盘的客户端才可以下载。
4.0.11 版本,盲猜下
tikv中有没有这样的日志:
UniformSampler::sample_single: low >= high

如果有,这是一个bug,需要修改 set config tikv split.qps-threshold=500000; 把这个值调整无法触及的大。

1 个赞

没有,这个值已经设置为3000000了得

1 个赞

直接手动重启下kv节点,看看能不能启动成功,然后看看网络和资源呢

1 个赞

重启是成功了,但是当时得业务受影响了,想查下具体down得原因。

1 个赞

网络和硬件资源有问题吗,我们遇到过主机自己挂了的情况,这个比较极端

1 个赞

文件没有数据,导出的时候,把相应的image
展开后,再来导出

[2022/03/18 00:16:37.190 +08:00] [ERROR] [kv.rs:931] ["KvService response batch commands fail"]
[2022/03/18 00:16:37.190 +08:00] [ERROR] [pd.rs:64] ["Failed to send read flow statistics"] [err="channel has been closed"]
[2022/03/18 00:16:37.450 +08:00] [ERROR] [kv.rs:931] ["KvService response batch commands fail"]
[2022/03/18 00:16:50.232 +08:00] [INFO] [store.rs:347] ["failed to schedule store tick, are we shutting down?"] [err="\"SendError(..)\""] [tick=SnapGc]
[2022/03/18 00:17:28.715 +08:00] [ERROR] [kv.rs:931] ["KvService response batch commands fail"]
[2022/03/18 00:17:28.715 +08:00] [ERROR] [pd.rs:64] ["Failed to send read flow statistics"] [err="channel has been closed"]

1)对应主机有硬件告警吗?
2)对应主机内存够用吗?

1 个赞

这个是tikv得当时得系统资源情况

OOM吗?

日志中没有

Cluster-PD_2022-03-22T03_50_55.691Z.json (134.6 KB) Cluster-TiDB-Summary_2022-03-22T03_49_20.331Z.json (49.3 KB) Cluster-TiKV-Details_2022-03-22T03_47_44.289Z.json (921.0 KB)

这个是新导出得包括详细信息

还是没有数据

具体看哪个指标呢
我截图给你下