TiKV server timeout[try again later]

不用,把这台tikv再起来就行

好的,麻烦老师了


那这个store状态会变成墓碑吗/

如果region全部重建成功,这上面没有region了的话就会tombstone

可以访问数据库了,store291417还是这样的,并没有变成墓碑状态

看错了,变成墓碑状态了,我需要扩容tikv节点了

老师好,tikv又开始频繁重启了


日志里面出现大量这种报错

最后报一个这样的错误就开始重启了

store的状态一直是Disconnected

tikv的机器硬件配置 57 内存32G CPU8核心,磁盘500G非SSD 81 内存24G CPU8核心,磁盘500G非SSD 83 内存24G CPU8核心,磁盘500G非SSD

57


81/83

57和81/83有差别,81和83相同
机器型号57也和81,83不同

再次确认下出问题的集群是新部署的吗? 或者最近有升级tidb版本,或者是升级系统版本,或者是更换硬盘的行为?

集群现在 3 KV实例,其中一个 KV 实例存在不断重启问题,但是查询是会报错Region is unavailable[try again later] ,是嘛?

1、在上个月由于机房迁移tidb从81/82/83迁到55/56/57上面了 2、迁移完成后发现有的版本不一致,然后统一从2.1.5升级到了2.1.16 3、在11月6号55/56/57有加过内存,也就是报错的前一天 4、现在查询有些会报Region is unavailable[try again later] 错误,有些查询不报错。

看下现在 副本不足3得有哪些:pd-ctl -u http://pdip:port:2379(默认端口) region --jq=".regions[] | {id: .id, peer_stores: [.peers[].store_id] | select(length != 3)}"

看下现在只有1 副本得有哪些: region --jq=".regions[] | {id: .id, peer_stores: [.peers[].store_id] | select(length == 1)}"

不足3的有24804,只有1副本的有8644


image
现在问题kv 实例 83有问题,你这上个月83 迁走了,现在又说 83 有实例?啥情况呀?是不是搞错了?是又添加了 83 KV 实例?

是这样的,83签走了以后发现load[1m]这个指标太高了,我先扩容一个tikv试试会不会减低load,然后83是就有一个实例了。后面55,56的tikv挂掉后扩容的是81,82

具体有哪几台机器加过内存?8x IP 有加过内存不?

55/56/57从24G加到了32G,81/82/83没变,加内存时tikv有4个节点55/56/57/83

好的,麻烦用smartctl -H 查一下硬盘的状况?看下/var/log/mce 或/var/log/mcelog 里面有没有啥日志

查看结果 1 副本8000多个,3 KV 实例坏一个 KV 实例是不会报错Region is unavailable[try again later] ,报错原因是因为 1 副本得存在,可能是昨天集群恢复,2 副本得副本还未补齐,今日再有问题出现 1副本导致报错,恢复方法目前看需类似昨天处理方法不安全恢复放弃这些 region 中的数据,让 tikv 恢复服务。