【 TiDB 使用环境】生产环境
【 TiDB 版本】6.1.0
【复现路径】一台宕机很久,重启失败
【遇到的问题:导致tidb不能启动】
【资源配置】* *
【附件:截图/日志/监控】[raft_client.rs:516] [“connection aborted”] [addr=10.114.26.112:20162] [receiver_err=“Some(RpcFailure(RpcStatus { code: 14-UNAVAILABLE, message: "failed to connect to all addresses", details: }))”] [sink_error=“Some(RpcFinished(Some(RpcStatus { code: 14-UNAVAILABLE, message: "failed to connect to all addresses", details: })))”] [store_id=183060412]
根据您提供的信息,问题似乎是由于TiKV节点无法与其他节点建立连接导致的。错误消息"[raft_client.rs:516] [“connection aborted”] [addr=10.114.26.112:20162]“表明TiDB尝试与地址为10.114.26.112的端口20162的TiKV节点通信,但连接被中断了。同时,”[receiver_err=“Some(RpcFailure(RpcStatus { code: 14-UNAVAILABLE, message: “failed to connect to all addresses”, details: }))“]“和”[sink_error=“Some(RpcFinished(Some(RpcStatus { code: 14-UNAVAILABLE, message: “failed to connect to all addresses”, details: })))”]"进一步确认了连接失败的问题。
为了解决这个问题,您可以尝试以下步骤:
- 检查网络连接:确保所有的TiDB集群节点之间的网络连接是正常的。可以使用ping命令测试节点间的连通性。
- 检查防火墙设置:确认防火墙没有阻止TiDB节点之间的通信端口。TiDB集群通常需要开放一些特定的端口以便节点间通信。
- 检查TiKV状态:登录到出现问题的TiKV节点,查看其状态。可以使用
tikv-ctl
工具检查TiKV节点的健康状况。
防火墙都是关了,现在tidb起不来:
[ERROR] [tidb.go:89] [“[ddl] init domain failed”] [error=“[tikv:9005]Region is unavailable”]
tiup看集群节点的状态是什么样?启动不了的那台TiKV就算坏了也不影响整个集群使用
那tikv删除了么?如果删除了,但是tidb启动不了,可以参考楼上的三板斧处理一下