tidb-server不停重启，为什么

逍遥_猫 · 2023 年9 月 6 日 12:35

【 TiDB 使用环境】测试
【 TiDB 版本】v6.1.1
【复现路径】虚拟机关机后再启动，tidb-server一直down
【遇到的问题：问题现象及影响】
虚拟机关机后重新启动，发现tidb-server一直down ，tidb-server只部署了一个节点，
pd,tikv各三个
tidb-server部署在B节点，B节点查看发现TIDB-SERVER 服务进程一直存在，但是大约每2分钟会自动重启，即使kill process 也会启动起来
新部署的集群，无数据，重启之前执行过 tiup cluster clean tidb1 --all
内存，cpu都足够

请教大佬们，大概那些会导致tidb-server一直重启？

zhanggame1 · 2023 年9 月 6 日 12:39

看看tidb日志，另外看看内存是不是不够了

逍遥_猫 · 2023 年9 月 6 日 12:42

内存，cpu都足够
这个tidb报错奇奇怪怪

实际3个节点的磁盘都只使用了不到50%

我是咖啡哥 · 2023 年9 月 6 日 12:47

df -ih
看看是不是inode满了

逍遥_猫 · 2023 年9 月 6 日 12:49

zhanggame1 · 2023 年9 月 6 日 13:05

tikv disk full 如果不是慢了可能tikv就有问题，看看tikv日志

逍遥_猫 · 2023 年9 月 6 日 14:40

tikv日志报错

clean --all 或者 clean --data 为什么会报region没有leader呢？
pd-ctl查了，的确如报错提示那样

ShawnYan · 2023 年9 月 7 日 00:52

虚拟机么？网络有变动么，跟pd通信都正常？

Kongdom · 2023 年9 月 7 日 01:38

空间大小是K？

Kongdom · 2023 年9 月 7 日 01:41

哦，我想起来一个情况，之前有个集群频繁增删，最后发现监控里空间不足，但是物理磁盘空间充足的情况。最后好像重启集群还是扩容缩容才让监控正常

就是监控里的是未释放的，但实际物理释放了。感觉是监控统计信息没有更新。

Fly-bird · 2023 年9 月 7 日 01:56

挨个重启下各个节点试试

Kongdom · 2023 年9 月 7 日 02:29

翻了一下，就是这个。最后是重建集群了~

tidb菜鸟一只 · 2023 年9 月 7 日 02:42

可以从grafana监控页面看下tikv的磁盘使用情况，是不是集群没清理干净