tidb集群中某一台tikv启动不了,报权限问题PermissionDenied

【 TiDB 使用环境】测试
【 TiDB 版本】v5.4.0
【遇到的问题】
tikv.log日志内容:
[2022/08/12 19:26:02.636 +08:00] [FATAL] [lib.rs:465] [“called Result::unwrap() on an Err value: Os { code: 13, kind: PermissionDenied, message: "Pe
rmission denied" }”] [backtrace=" 0: tikv_util::set_panic_hook::{{closure}}
at /home/jenkins/agent/workspace/build-common/go/src/github.
com/pingcap/tikv/components/tikv_util/src/lib.rs:464:18
1: std::panicking::rust_panic_with_hook
at /rustc/2faabf579323f5252329264cc53ba
9ff803429a3/library/std/src/panicking.rs:626:17
2: std::panicking::begin_panic_handler::{{closure}}
at /rustc/2faabf579323f5252329264cc
53ba9ff803429a3/library/std/src/panicking.rs:519:13
3: std::sys_common::backtrace::__rust_end_short_backtrace
at /rustc/2faabf579323f52
52329264cc53ba9ff803429a3/library/std/src/sys_common/backtrace.rs:141:18
4: rust_begin_unwind
at /rustc/2faabf579323f5252329264cc53ba9f
f803429a3/library/std/src/panicking.rs:515:5
5: core::panicking::panic_fmt
at /rustc/2faabf579323f5252329264cc53ba9ff803429a3/library/c
ore/src/panicking.rs:92:14
6: core::result::unwrap_failed
at /rustc/2faabf579323f5252329264cc53ba9ff803429a3/library/core/src/result.rs
:1599:5
7: core::result::Result<T,E>::unwrap
at /rustc/2faabf579323f5252329264cc53ba9ff803429a3/library/core/src/result.rs:1281:23\

server::server::TiKVServer::check_conflict_addr
at /home/jenkins/agent/workspace/build-common/go/src/github.com/pingcap/tikv/compone
nts/server/src/server.rs:370:22
server::server::run_tikv
at /home/jenkins/agent/workspace/build-common/go/src/github.com/pingcap/tik
v/components/server/src/server.rs:155:9
8: tikv_server::main
at /home/jenkins/agent/workspace/build-common/go/src/github.com/pingcap/ti
kv/cmd/tikv-server/src/main.rs:190:5
9: core::ops::function::FnOnce::call_once
at /rustc/2faabf579323f5252329264cc53ba9ff803429a3/libra
ry/core/src/ops/function.rs:227:5
std::sys_common::backtrace::__rust_begin_short_backtrace
at /rustc/2faabf579323f5252329264cc53ba9f
f803429a3/library/std/src/sys_common/backtrace.rs:125:18
10: main
11: __libc_start_main
12:
"] [location=components/server/src/server
.rs:370] [thread_name=main]

【复现路径】
集群共4台,只有管理主机这一台的tikv启动不了,其它另外3台启动正常,在主的这一台加tiflash也一样会报这个权限问题,服务启动不了,感觉像是用户硬盘访问权限问题,可是主的这一台其它几个服务tidb和pd都启动正常,日志也产生正常,很是奇怪,请问有高手知道原因吗?
【问题现象及影响】

【附件】

请提供各个组件的 version 信息,如 cdc/tikv,可通过执行 cdc version/tikv-server --version 获取。

用户的授权,是通过 tiup 来创建的么?

tiflash 都是 tombstone 的状态了,可以清理掉了

检查下235的目录权限跟别的节点一样吗

权限是一样的,我用扩容的方法建的,目录日志什么的都有建,就是进程启动不了,看日志就报上面的错误,那个tiflash也是一样,所以状态是tombstone状态,还只能–force删除,搞了几次都不行。

权限一样的,我设置成777也没有用,不明所以啊

都是用tiup来创建的,tiflash也是出现这个权限问题,导致启动不了

自己顶一下,有谁遇到过吗?

在找两个新的机器(作为新的节点),重新加入集群试试呢?[以前有问题的节点,直接下线得了]

感觉就是tidb这个用户权限问题,我直接用root启动tikv-deploy下的script的执行run_tikve.sh是可以执行的,此时diplay显示是up状态,/tikv-data目录下的文件也者产生了其它文件,只是权限拥有人是root,进程没办法执行在tidb用户下,是tidb用户的权限有什么问题吗?

那还是授权问题, 默认采用 root 执行tiup 命令,会统一生成 tidb 用户,以及对应的数据目录,日志目录,并给予相应的权限,权限组

如果又是 root,又是tidb,说明不一致… 这个能理解么~

我是用tidb这个账号安装的tidb,tiup也是在tidb账号下执行的,所有的文件目录也都是属于tidb的,用tidb账号都正常,就是执行tikv和tifash操作才出问题,其它的进程都是正常的。

已经启动成功,感觉有点莫名其妙,有操作了以下两个步骤:将:chmod +777 -R /tmp,即将/tmp下的所有目录都改为777权限,另一个操作:/etc/security/limits.conf
tidb soft stack 10485760
tidb hard stack 10485760
改为10485760。感觉应该是/tmp目录权限问题,估计tikv和tiflash启动时可能是要操作/tmp目录下的某个文件夹,已知tikv是:1002_TIKV_LOCK_FILES,但实际上我改目录权限之前/tmp已经是777了,而且tikv下也没有1002_TIKV_LOCK_FILES这个目录,在此先记录一下了,有遇到的同学可以试试看。

一般是用户权限的问题,777有些大了

该主题在最后一个回复创建后60天后自动关闭。不再允许新的回复。