tidb升级过程中tikv启动不起来

【 TiDB 使用环境】测试
【 TiDB 版本】v6
【复现路径】tiup升级从v5.4.3升级到v6.0.0,升级后,tikv启动不起来
【遇到的问题:问题现象及影响】tikv日志报错
[2023/01/10 10:14:03.782 +08:00] [ERROR] [server.rs:1075] [“failed to init io snooper”] [err_code=KV:Unknown] [err=“"IO snooper is not started due to not compiling with BCC"”]
[2023/01/10 10:14:06.768 +08:00] [FATAL] [lib.rs:465] [“open raft engine: Other("[components/raft_log_engine/src/engine.rs:373]: Corruption: unrecognized log file version: 2")”] [backtrace=" 0: tikv_util::set_panic_hook::{{closure}}\n at /home/jenkins/agent/workspace/build-common/go/src/github.com/pingcap/tikv/components/tikv_util/src/lib.rs:464:18\n 1: std::panicking::rust_panic_with_hook\n at /rustc/2faabf579323f5252329264cc53ba9ff803429a3/library/std/src/panicking.rs:626:17\n 2: std::panicking::begin_panic_handler::{{closure}}\n at /rustc/2faabf579323f5252329264cc53ba9ff803429a3/library/std/src/panicking.rs:519:13\n 3: std::sys_common::backtrace::__rust_end_short_backtrace\n at /rustc/2faabf579323f5252329264cc53ba9ff803429a3/library/std/src/sys_common/backtrace.rs:141:18\n 4: rust_begin_unwind\n at /rustc/2faabf579323f5252329264cc53ba9ff803429a3/library/std/src/panicking.rs:515:5\n 5: core::panicking::panic_fmt\n at /rustc/2faabf579323f5252329264cc53ba9ff803429a3/library/core/src/panicking.rs:92:14\n 6: core::result::unwrap_failed\n at /rustc/2faabf579323f5252329264cc53ba9ff803429a3/library/core/src/result.rs:1599:5\n 7: core::result::Result<T,E>::expect\n at /rustc/2faabf579323f5252329264cc53ba9ff803429a3/library/core/src/result.rs:1241:23\n server::raft_engine_switch::check_and_dump_raft_engine\n at /home/jenkins/agent/workspace/build-common/go/src/github.com/pingcap/tikv/components/server/src/raft_engine_switch.rs:233:23\n server::server::TiKVServer<engine_rocks::engine::RocksEngine>::init_raw_engines\n at /home/jenkins/agent/workspace/build-common/go/src/github.com/pingcap/tikv/components/server/src/server.rs:1306:9\n server::server::run_tikv\n at /home/jenkins/agent/workspace/build-common/go/src/github.com/pingcap/tikv/components/server/src/server.rs:156:9\n 8: tikv_server::main\n at /home/jenkins/agent/workspace/build-common/go/src/github.com/pingcap/tikv/cmd/tikv-server/src/main.rs:190:5\n 9: core::ops::function::FnOnce::call_once\n at /rustc/2faabf579323f5252329264cc53ba9ff803429a3/library/core/src/ops/function.rs:227:5\n std::sys_common::backtrace::__rust_begin_short_backtrace\n at /rustc/2faabf579323f5252329264cc53ba9ff803429a3/library/std/src/sys_common/backtrace.rs:125:18\n 10: main\n 11: __libc_start_main\n 12: \n"] [location=components/server/src/raft_engine_switch.rs:234] [thread_name=main]
【资源配置】
【附件:截图/日志/监控】

看看磁盘使用率。

磁盘还有50G可用

升级完成了吗?是升级过程中出的这个问题,还是升级完成后,出现的这个问题?

没有升级完成,看tikv的版本是v6.0.0了

升级过程有没有其他报错?有没有报错日志?这个tikv节点的os层有没有报错?其他的节点都升级成功了吗?

升级过程中升级失败,在启动tikv的时候,提示升级失败;一开始是1个tikv起不来,一重启3个tikv都起不来了,启动错误都是一样,os层没有报错

  1. 是停机升级的还是不停机升级的?不过是不停机,期间有没有其他什么操作?其他人有没有登录数据库做一些DDL类的操作?
  2. 建议发一下升级过程,集群拓扑,用的到相关命令,报错日志等

不停机升级,升级过程中应该没有ddl操作,当初本来是升级到v6.1.3,升级过程中失败了,后来又改为升级v6.0.0升级还是失败,集群拓扑结构

tiup-cluster-debug-2023-01-09-17-07-47.log (611.0 KB)

  1. tidb升级过程中是不能回退的,
    不知道你从5.4.3升级到6.1.3遇到了什么报错,有没有节点升级成功?
    然后你又用6.0的版本去升没有完全升级成功的集群,肯定会有不可预知的错误。
  2. 看报错,感觉像rocksdb层的log file不能识别了,导致tikv不能启动。
  3. 如果还想继续搞,个人感觉可以用6.1.3继续升级试试,不过建议还是看看其他大佬有没有好的办法。
  4. 升级不建议用DMR版本,自己测试还行,推荐LTS版6.1或6.5

好的。

重新手工升级到高版本可以起来了,:+1:t2::+1:t2::+1:t2::+1:t2::+1:t2::+1:t2: [quote=“裤衩儿飞上天, post:12, topic:999575, full:true”]

  1. tidb升级过程中是不能回退的,
    不知道你从5.4.3升级到6.1.3遇到了什么报错,有没有节点升级成功?
    然后你又用6.0的版本去升没有完全升级成功的集群,肯定会有不可预知的错误。
  2. 看报错,感觉像rocksdb层的log file不能识别了,导致tikv不能启动。
  3. 如果还想继续搞,个人感觉可以用6.1.3继续升级试试,不过建议还是看看其他大佬有没有好的办法。
  4. 升级不建议用DMR版本,自己测试还行,推荐LTS版6.1或6.5
    [/quote]

:+1: :+1: :+1:
建议起来后先备份下数据,防止发生不可预知错误。