tiflash 运行中重启 启动不了

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】
v5.4.0 k8s部署的
【复现路径】做过哪些操作出现的问题
tiflash就是跑着跑着,drop了一个table,然后tiflash延迟很高,然后强制重启tiflash(就是删除pod,原地重启)
【遇到的问题:问题现象及影响】
一直crash了
【资源配置】
【附件:截图/日志/监控】

[2023/01/17 12:41:44.674 +00:00] [FATAL] [lib.rs:463] [“[region 143590] 6322160 applying snapshot failed”] [backtrace=“stack backtrace:\n 0: tikv_util::set_panic_hook::{{closure}}\n 1: std::panicking::rust_panic_with_hook\n at library/std/src/panicking.rs:595\n 2: std::panicking::begin_panic_handler::{{closure}}\n at library/std/src/panicking.rs:497\n 3: std::sys_common::backtrace::__rust_end_short_backtrace\n at library/std/src/sys_common/backtrace.rs:141\n 4: rust_begin_unwind\n at library/std/src/panicking.rs:493\n 5: std::panicking::begin_panic_fmt\n at library/std/src/panicking.rs:435\n 6: raftstore::store::peer_storage::PeerStorage<EK,ER>::check_applying_snap\n 7: raftstore::store::peer::Peer<EK,ER>::handle_raft_ready_append\n 8: <raftstore::store::fsm::store::RaftPoller<EK,ER,T> as batch_system::batch::PollHandler<raftstore::store::fsm::peer::PeerFsm<EK,ER>,raftstore::store::fsm::store::StoreFsm>>::handle_normal\n 9: batch_system::batch::Poller<N,C,Handler>::poll\n 10: std::sys_common::backtrace::__rust_begin_short_backtrace\n 11: core::ops::function::FnOnce::call_once{{vtable.shim}}\n 12: <alloc::boxed::Box<F,A> as core::ops::function::FnOnce>::call_once\n at /rustc/16bf626a31cb5b121d0bca2baa969b4f67eb0dab/library/alloc/src/boxed.rs:1546\n <alloc::boxed::Box<F,A> as core::ops::function::FnOnce>::call_once\n at /rustc/16bf626a31cb5b121d0bca2baa969b4f67eb0dab/library/alloc/src/boxed.rs:1546\n std::sys::unix::thread::thread::new::thread_start\n at library/std/src/sys/unix/thread.rs:71\n 13: start_thread\n 14: clone\n”] [location=/home/jenkins/agent/workspace/optimization-build-tidb-linux-amd/tics/contrib/tiflash-proxy/components/raftstore/src/store/peer_storage.rs:1408] [thread_name=raftstore-0]

另外,想找找tiflash的代码,也没看到rust的部分,谁能简单给介绍下tiflash的代码组成也行,比如说哪个组件是什么仓库地址?
感谢感谢!

rust 部分是 https://github.com/pingcap/tidb-engine-ext 是一个改造的 tikv。我们的过往文章对 tiflash proxy 有介绍。

你这个问题应该是 tiflash proxy,也就是这个改造的 tikv 做 apply snapshot 失败。有可能是 snapshot 文件丢了,或者存储坏掉了之类的。

从pd看,这个store上没有报错的这个 143590 region的副本了。
这种情况,怎么恢复下?

删掉 table tiflas 副本>>正常下线 >>正常扩容>> 没有问题的话再创建需要的 table 副本试试。

这个就太慢了,几T的数据,怎么能说加就加说删就删呢。并且,tiflash只是重启了下,就起不来了。这有点脆。

可以先停止tiflash,然后在启动tiflash

就是停了以后,启动不了了。