tidb8.5.0运行于openEuler24.03, 操作系统崩溃

【 TiDB 使用环境】生产环境
【 TiDB 版本】8.5.0
【复现路径】操作系统重启后,重新执行tiup cluster start 【集群名】,操作系统又崩溃
【遇到的问题:问题现象及影响】tiup cluster start 【集群名】,操作系统崩溃
【操作系统崩溃日志】
操作系统/var/crash下日志:
BUG: kernel NULL pointer dereference, address: 0000000000004000
#PF: supervisor read access in kernel mode
error_code (0x0000) - not - present page
设备硬件为联想 ThinkServer SR658H V2(型号),BIOS 版本为 HSE258A-2.58,更新日期是 2024 年 9 月 24 日 。
出现问题时涉及的进程 PID 为 2652,进程名为 pmdaproc 。
【其他附件:截图/日志/监控】

版本太高了吧,建议换成欧拉20.3试一下。

看着是proc_cgroup_show引起的问题,估计只能等补丁修复了。

1 个赞


感谢回复。尝试了官方建议的openEuler22.03 lts sp3版本,重新安装系统和tidb 8.5,tidb启动后,先显示网卡错误,然后系统崩溃重启

感谢。或者用低版本tidb ?

重新铲掉再试一下看看,正常应该可以的

你的资源情况怎么样?

有可能是这个bug

1 个赞

联想ThinkSytem R658H
2海光7285 32核 2.0GHz 处理器
256GB DDR4;
Raid 0,1,5;
4
960G SSD
21GB千兆电口+210G万兆光口卡(含10GB模块)
2*16G HBA;

感谢回复。早上刚把openEuler24.03 lts sp1铲掉,刚安装openEuler 22.03 sp3


按这个提示,只能用22.03 lts sp1 ?

上面链接里面的最终没合并,最终合并的是这个,我理解sp3应该是没问题的。

1 个赞

感谢回复,昨天安装了openEuler 22.03 lts sp3后,今早进入控制台,满屏都是这两个光纤网卡的报错:

中午又尝试一下openEuler 22.03 lts sp1这个版本的操作系统,结果可能因为安装盘镜像里没有集成光纤模块的驱动,继而网络设备里找不到网卡,又作罢

1 个赞

能把操作系统干崩溃。

这个问题应该不是 tidb 给系统干崩溃,看下来问题的核心,是您的光纤模块驱动和 ol 2203 不兼容的问题

还有从原厂角度出发,我们是否可以考虑在 OpenEuler 社区设置 SIG 组,来紧跟 ol 系统的发版节奏,因为在我这边的场景中,发现了新版本 ol (如 2403)不支持某些硬件的驱动的情况,给我感觉后续 ol 的发版会更频繁,相应的数据库软件也需要适配新的 ol 版本

3 个赞

估计真的像楼上说的,是光纤的问题。

换个网卡试试,其他品牌老点的型号

操作系统版本太高吧

系统不兼容硬件了