TIDB节点在压力大时，会导致磁盘IO直接占满，然后系统卡死

Zealot · 2025 年2 月 17 日 07:07

我是rocky linux 9.5，刚刚又出现了一次这个情况

Zealot · 2025 年2 月 17 日 07:25

感谢，我看了这个贴子准备换centos 7试试，之前我就是centos 7，没有问题，然后我换了集群，把数据BR同步过来，就出现系统卡死的问题了

像风一样的男子 · 2025 年2 月 17 日 08:24

我这有套集群kv节点混了centos7和rocky9部署的，rocky系统使用的内存比centos7高百分之20。

有猫万事足 · 2025 年2 月 17 日 08:29

目前报告上来的还都是tidb节点在rocky上如果内存不够有卡死的问题。tikv还没有收到报告。

是指同样的内存大小，同样的block-cache大小的情况下，也会大20%内存吗？如果是，问题可能还在os的内核里面。
tikv和tidb用的编译语言不一样，本来tidb可能还要排除go版本的影响，如果能确认，那么go版本应该对这个问题是没有影响的。

像风一样的男子 · 2025 年2 月 17 日 08:39

我所有kv节点安装配置都是一样的，只有操作系统版本有差别。

有猫万事足 · 2025 年2 月 17 日 08:42

那基本可以确定问题在os了。

Zealot · 2025 年2 月 17 日 08:43

我发现还有个现象是，我换了centos7后，在grafana上可以显示出quota了，不知道和这个有没有关系

Zealot · 2025 年2 月 18 日 07:03

这是昨天系统卡死时，磁盘的监控，本来没什么磁盘IO，然后突然就满了，还全是读IO

zhanggame1 · 2025 年2 月 18 日 08:01

iotop命令装个，看看哪个进程在写

Zealot · 2025 年2 月 18 日 08:06

我也想看，问题是，卡死后系统都进不去，VNC控制台按回车都没任何反应

zhanggame1 · 2025 年2 月 18 日 08:13

确认下是不是内存不够了
另外这个机器上pd tidb和tikv你装了几个组件？

Billmay表妹 · 2025 年2 月 18 日 08:19

【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面你再发一下看看这个图

Zealot · 2025 年2 月 18 日 08:20

16C 32G内存，看grafana，基本维持在10G-20左右，TIDB组件单独在一台机器上

Zealot · 2025 年2 月 18 日 08:27

目前整个集群就只有3台机器是tidb和pd是混合部署，但昨天出问题的172.30.32.121是只部署了一个TIDB组件，昨天晚上换了centos7，到现在暂时还没遇到卡死的情况

zhanggame1 · 2025 年2 月 18 日 10:00

那就继续观察，另外可以看看grafana监控的出问题机器cpu和内存

The-Fallen-Angel · 2025 年2 月 18 日 12:28

看来rocky短板不少。

Zealot · 2025 年2 月 19 日 00:55

嗯，应该是rocky的问题，换到centos7后还没发现有问题，如果这周都稳定的话，那就确定是rocky的问题了

WalterWj · 2025 年2 月 20 日 02:17

清风明月 · 2025 年2 月 20 日 02:22

可以看下服务器的资源使用情况，再看下日志。

Zealot · 2025 年2 月 20 日 02:45

swap这个检查过，是关闭状态，落盘这个没管，有可能部分情况下会落盘，但看监控图显示，是读取流量占满了IO，和落盘应该没关系，或者是落盘后重新读取数据时造成的？目前只把tidb-server换了centos7，其他参数没变，已经稳定运行两天了