集群下老是同一个tikv自动莫名重启了

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:tidb 4.00
  • 【问题描述】:集群下老是莫名同一个tikv会自动重启。
    集群信息:tidb * 3 、tikv *4、PD *3

监控上看不出什么异常。tikv和pd报错日志在附件里pd_10_30_4_140_2379.zip (281 字节) tikv_10_30_4_144_20160.zip (819 字节)

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

1、辛苦提供下 pd-ctl store 信息

2、辛苦提供下异常重启的 tikv 的 run_tikv.sh 脚本内容信息

3、如果是 tiup 部署的环境,请 tiup cluster display {cluster_name} 看下集群拓扑

4、异常 tikv 以及 pd leader 的日志 log 信息较少,辛苦提供问题时间点的较为完整的 log 文件,包括 log 以及 sdterr log

5、辛苦提供下 grafana 监控面板中 tikv-details 的 ERROR 面板的监控 metrics,以及问题 store 的 node-exporter 的 监控信息

tikv.7z (5.0 MB) pd.7z (5.1 MB) 上传中:tikv_stderr.log… pd-ctl store 信息.txt (3.6 KB) run_tikv.sh (563 字节)

您好,pd_stderr和tikv_stderr文件是空的,上传不了到asktug,其他都上传了。还请有空帮忙看一下谢谢!

1、建议看一下这台 tikv 到 pd 的网络情况,监控中有
2、tikv 日志,最好给一下重启之前的日志(目前日志较少),另外,麻烦在该 tikv 服务器上 执行一下如下命令: curl http://xx.xx.xx.140:2379/pd/api/vi/component 这个命令

日志以后补了,打包上传了。请看tikv.7z pd.7z还有你说的 【curl http://xx.xx.xx.140:2379/pd/api/vi/component 】无法运行,报404。对应XXIP我改成 pd 也不行。

1.网络肯定OK的,都是一个内网集群。我看过网络问题,排除网络问题。
2.你给的,【curl http://xx.xx.xx.140:2379/pd/api/vi/component 】应该是v1,不是vi,所以运行失败。我改了一下,运行成功,结果如下:

{
“tikv”: [
“10.30.4.143:20180”,
“10.30.4.144:20180”,
“10.30.4.145:20180”,
“10.30.4.234:20180”
]
}

1、建议排查一下是否开启 numa 设置、及 THP 设置
cat /proc/sys/vm/zone_reclaim_mode
0
[bhuser@boohee-tikv01 log]$ cat /sys/kernel/mm/transparent_hugepage/enabled
always madvise [never]

[bhuser@boohee-tikv01 log]$ cat /sys/kernel/mm/transparent_hugepage/defrag
always madvise [never]
2、另外,帮看一下监控上 该 tikv 的 内存及IO 使用情况

您好,您给的参数我在集群中所有tikv上看过了。查询结果都是一模一样的。感觉应该不是这个参数问题,出问题老是自动重启服务的tikv就是指的的一台,xx.xx.xx.144。且已排查过,出问题之前IO以及内存使用都正常。

1、能把上传的 tikv 日志格式改一下吗,我这边上面的日志看不了
2、另外,帮上传一下启动前 /var/log/message 的内容。
3、监控中有 node—exporter ,里面,对应时间的监控指标信息也帮发一下

messages (64.3 KB) messages-20201025 (109.0 KB) tikv.tar (6.0 MB)

需要的文件

您好,您吩咐的文件,都已经上传了。还请有空在帮忙看看,谢谢

提供的日志内容都是一样的,没有有用信息,不过看现象还是服务器资源不足导致,如果服务器配置充裕,建议还是从上面提到的 numa 及 THP 考虑,如果有限制,可以取消限制,另外,可以看看 overview 里的 内存使用情况,及检查是否有其他程序占用较大内存