V5.4.0 部署TiKV出现错误

【 TiDB 使用环境】测试环境
【 TiDB 版本】v5.4.0
【资源配置】物理机 + SSD单独数据分区
【遇到的问题:物理机部署TiKV出现报错】
三台物理机配置一致,有2台报同样的错误,


另一台运行tikv toml文件check是可以正常通过的。


错误描述:




tiup在启动集群的时候,tikv节点的报错是什么?

目前这个是部署集群的过程出现的报错,就是deploy阶段的报错,集群并没有创建出来。

tiup check 通过了没? 没通过的话,可以按照部署配置的详细文档,对照修改

强行跳过,可能就会出现启不动,或者不正常的情况

check过的,有问题的都是些不是特别重要的选项,现在我再check就是些目录已存在的报错了。

dePloy时加 --user xxx -p 试试 ,再不行再加上 --ssh=system试试

不是特别重要的选项是指的哪些呢?

10.196.3.188 disk Fail mount point /data0 does not have ‘nodelalloc’ option set
10.196.3.188 disk Fail multiple components tikv:/data0/dba/tidb_elephant_test/tikv21281v,tiflash:/data0/dba/tidb_elephant_test/tiflash9132v are using the same partition 10.196.3.188:/data0 as data dir
10.196.3.188 limits Fail soft limit of ‘nofile’ for user ‘dba’ is not set or too low
10.196.3.188 limits Fail hard limit of ‘nofile’ for user ‘dba’ is not set or too low
10.196.3.188 limits Fail soft limit of ‘stack’ for user ‘dba’ is not set or too low

谢谢您的帮忙,我deploy是有加 --user 的,现在的情况是其他组件部署没有问题,只有tikv的其中两个有问题,感觉应该跟ssh关系不大。

191 和 188 check 的问题是一样的?

190 呢?

190 check是可以正常过的 … 我看了下tikv的toml文件,都是一样的。

要不把环境清干净,重新在部署试试?

我们仔细看了下,这两台机器开启了cgroupV2,而且部署v6.x版本就没问题,v5.4版本就报错,我们把cgroupV2的配置清理了也不可以。 v5.4版本是必须用cgroupV1才可以?

感觉全部清理重新装应该能解决

这些服务器是同一装的系统吗?生产环境系统应该有调优过吧。