-
已经恢复正常了吗?各种 log、status 均正常了吗?
-
ikv节点已经是down的了reload时为什么还通过metric tikv_raftstore_region_count{type=“leader”} 判断leader数量,对于这种状态是否可以跳过或其他方式处理?(可能这个tikv在部署时就有问题,当时没太注意)
→failed to evict store leader xxx130.97: metric tikv_raftstore_region_count{type=“leader”} not found
应该是 tiup 报出来的,他的动作就是 GetCurrentStore 然后驱逐 leader,不会检测这个 store 是否 down 了。但是也合理,因为如果 store down 了,应该先修 store,避免一些未定义行为发生。而检测 store 的 leader 数量就是 通过 genLeaderCounter 函数,就是看监控,因为 store down 了,curl 不到监控信息,就抛错失败了。
a. 如果就想 reload 成功的话,估计只能先修 store 为啥 down。
b. 如果只是想让新参数持久化到 toml 中,目的应该已经达到了。 -
space holder file 紧急情况下可以删除释放磁盘空间,这里在重启时报 [“Failed to reserve space for recovery: Structure needs cleaning (os error 117).”] 错误, OS error code 117: Structure needs cleaning ,这是要清理哪些结构?之前没有手动删除过placeholder文件
→ 看了下检测逻辑,如果 spaceholder 存在就删除,再后面的动作。
failed to remove space holder on starting: No such file or directory (os error 2)
是调了 rust 官方 fs.rs 库的 remove_file 抛回来的。绕过办法,删除并重建一个同名 space holder 文件就可以,该文件重启后会被自动重建成对应尺寸。 但是这不应该导致 tikv server down。