TIDB节点在压力大时,会导致磁盘IO直接占满,然后系统卡死

我是rocky linux 9.5,刚刚又出现了一次这个情况

1 个赞

感谢,我看了这个贴子准备换centos 7试试,之前我就是centos 7,没有问题,然后我换了集群,把数据BR同步过来,就出现系统卡死的问题了

1 个赞

我这有套集群kv节点混了centos7和rocky9部署的,rocky系统使用的内存比centos7高百分之20。

1 个赞

目前报告上来的还都是tidb节点在rocky上如果内存不够有卡死的问题。tikv还没有收到报告。

是指同样的内存大小,同样的block-cache大小的情况下,也会大20%内存吗?如果是,问题可能还在os的内核里面。
tikv和tidb用的编译语言不一样,本来tidb可能还要排除go版本的影响,如果能确认,那么go版本应该对这个问题是没有影响的。

我所有kv节点安装配置都是一样的,只有操作系统版本有差别。

1 个赞

那基本可以确定问题在os了。

我发现还有个现象是,我换了centos7后,在grafana上可以显示出quota了,不知道和这个有没有关系


这是昨天系统卡死时,磁盘的监控,本来没什么磁盘IO,然后突然就满了,还全是读IO

iotop命令装个,看看哪个进程在写

我也想看,问题是,卡死后系统都进不去,VNC控制台按回车都没任何反应

确认下是不是内存不够了
另外这个机器上pd tidb和tikv你装了几个组件?

【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面 你再发一下看看这个图

16C 32G内存,看grafana,基本维持在10G-20左右,TIDB组件单独在一台机器上


目前整个集群就只有3台机器是tidb和pd是混合部署,但昨天出问题的172.30.32.121是只部署了一个TIDB组件,昨天晚上换了centos7,到现在暂时还没遇到卡死的情况

那就继续观察,另外可以看看grafana监控的出问题机器cpu和内存

看来rocky短板不少。

1 个赞

嗯,应该是rocky的问题,换到centos7后还没发现有问题,如果这周都稳定的话,那就确定是rocky的问题了

1 个赞
  1. swap 关了么?
  2. 是否触发了 tmp 落盘。https://docs.pingcap.com/zh/tidb/stable/configure-memory-usage#数据落盘

可以看下服务器的资源使用情况,再看下日志。

swap这个检查过,是关闭状态,落盘这个没管,有可能部分情况下会落盘,但看监控图显示,是读取流量占满了IO,和落盘应该没关系,或者是落盘后重新读取数据时造成的?目前只把tidb-server换了centos7,其他参数没变,已经稳定运行两天了

1 个赞