BR恢复失败,怎么删除所有恢复的数据,重新恢复呢

我是5.0.0的BR,我ratelimit都写成了30了。速度还是100左右。不加ratelimit 180左右。
每次恢复都有tikv节点提示Disconnected断开,然后中断恢复,提示error:error=“rpc error: code = Unavailable desc = transport is closing”]。不管加不加限速。都报这个错误。已经恢复测试了10遍了。。哎~~~

:thinking:那有必要看看这几台服务器的系统日志了,看看是不是OOM之类的,但是感觉不一样才对~

1 个赞

果然,message日志里面有OOM,把我的tikv server给kill了。然后直接恢复失败

这个其实还不是最烧的操作,我们遇到过因为其他程序OOM,然后linux随机kill掉了我们关键进程的 :joy:这个随机kill是真的烧

1 个赞

删除恢复的数据库。再重新恢复备份

。。。还能随机kill。。估计也是占内存大的进程吧。才会kill一个大内存进程减少内存消耗。

tikv的storage.block-cache.capacity往下调。就能把tikv的内存控制住了。
至于下调到多少合适。

你可以使用set config往下调调看,注意这个修改不是立刻生效的,会在30分钟内慢慢下降,可能需要多观察一会。
https://docs.pingcap.com/zh/tidb/stable/dynamic-config#在线修改集群配置
从我实践来看,这个方式是比较靠谱的调整tikv内存占用的方法。

2 个赞

谢谢了。我加了内存。12-16-24 依次加。24G的时候不会出现oom情况吧tikv给kill了。free -m提示他用了16G就不在涨了

可以。也是个办法。

一般来说tikv的storage.block-cache.capacity设置没问题,是不太容易oom的。多数是初始自动设置的storage.block-cache.capacity就有点偏大。然后tikv内存超80%,这个告警就一直有。

这个参数不是默认0.8吗。我部署的时候就是12G内存,然后恢复数据就oom给kill了。提高到16G还是不行。他不应该是我部署的时候12G的0.8 这个内存值吗?

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。