tikv一直在重启,也无相关日志,如何定位相关问题

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:

【TiDB 版本】v4.0.8

【问题描述】
tikv一直在重启,也无相关日志,如何定位相关问题


若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

  1. 看下系统日志 /var/log/messages 中有没有 Out of memory 的情况
  2. 在 tikv.log 中搜索 Welcome 关键字,找到最近一次 TiKV 重启的信息,从 Welcome 往前看,有没有 FATAL 关键字
  3. 看下 tikv_stderr.log 文件有没有什么信息
1 个赞

tikv.log中没有Welcome关键字信息,tike_stderr.log没有信息输出,messages中就只有这个服务器进入失败状态,重启的信息,没有找到内存溢出

没有 welcome 关键字的话,是怎么判断 TiKV 在一直重启的?
可以提供一些判断的依据信息看下。

在历史tikv.log中找到了Welcome的相关的日志,Tikv [FATAL] [server.rs:591] [“failed to start node: … last_index:726 not match apply state applied_index:726 last_commit_index:726 comit_index:726 comiy_term:54 truncated_state { index 724 term :53 } can not be recovered

  1. tikv 是不是没有设置 sync-log=true,服务器有异常掉电重启过么
  2. 集群一共几个 tikv 节点?设置的副本数是多少?故障的 tikv 有几个节点?

服务器之前失联过有去机房重启过,你说的配置我去查一下,tikv的结点应该有16个,4台服务器,一台启动4个

提供一下 tiup cluster edit-config 的结果看下
另外节点上有配置 label 么?
还有目前不断重启的是几个节点?

那个日志是true,这个环境是ansible部署的,没有tiup命令,要怎么给你这个结果?

不断重启的就一个节点

那提供一下带有 Welcome 关键字的那一个 tikv.log 日志文件
以及 ansible 目录下的 inventory.ini 文件

日志如果比较大的话,可以压缩之后上传到百度网盘。

专网服务器,拿不出来呀,刚才那报错都是我手打的:disappointed_relieved:

只有一个节点异常的话,将这个节点缩容并重新扩容吧。
扩缩容步骤可以参考:https://docs.pingcap.com/zh/tidb/stable/scale-tidb-using-ansible#缩容-tikv-节点

好的,谢谢了…

:handshake::handshake::handshake:

大佬,还有个问题,我在扩缩容的时候,我们这边是一个节点启动多个服务的,想停掉这个节点服务好像不好操作,ansible-playbook stop.yml -l 192.168.72.129:20173 提示匹配不上host

-l 指定的是别名,得看你 inventory.ini 中设置的别名是怎么样的

明白了,模拟环境已经扩缩容成功了,感谢

:handshake: