TiDB 节点大量[gc worker] delete range failed 报错信息

OnTheRoad · 2022 年8 月 18 日 13:20

【 TiDB 使用环境`】生产环境
【 TiDB 版本】v5.3.0
【部署环境】CentOS7.9，3TiDB/3PD/3TiKV独立部署
【遇到的问题】Dashboard中显示一个TiDB 节点大量报错gc worker报错

[gc_worker.go:713] ["[gc worker] delete range failed on range"] [uuid=60a807a27f00012] [startKey=7480000000000017ac] [endKey=7480000000000017ad] [error="[gc worker] destroy range finished with errors: [unsafe destroy range failed on store 1: gc worker is too busy unsafe destroy range failed on store 3: gc worker is too busy unsafe destroy range failed on store 2: gc worker is too busy]"]

【复现路径】未做过操作，正常运行
【问题现象及影响】
未见明显影响

h5n1 · 2022 年8 月 18 日 13:34

应该是前面的gc任务还没处理完

OnTheRoad · 2022 年8 月 18 日 13:48

查了下这个节点的日志，这个错误都快报一星期了。一直在报这个错。

h5n1 · 2022 年8 月 19 日 00:48

tidb的日志看看有其他信息吗？ select * from mysql.tidb看看GC设置。 tikv detail监控看看GC相关面板有什么异常

OnTheRoad · 2022 年8 月 19 日 03:38

h5n1 · 2022 年8 月 19 日 14:10

TiDB 5.3.1 Release Notes

有关于 “GC worker 繁忙后无法执行范围删除（即执行 unsafe_destroy_range 参数）的问题 #11903

xiaohetao · 2022 年8 月 20 日 08:07

学习了

wakaka · 2022 年8 月 29 日 05:46

请问下，是最后升级到5.3.1版本后解决的这个问题吗？

OnTheRoad · 2022 年8 月 29 日 05:58

这个暂时未升级。最近计划机房搬迁，待机房搬迁完毕，再着手 TiDB 升级的事情，可能会升级到 5.4.2.

wakaka · 2022 年8 月 29 日 06:00

我们好像也遇到这个问题，那你是怎么解决的来着？GC数据不回收

OnTheRoad · 2022 年8 月 29 日 06:03

暂时没管它，随时关注集群的状态。

wakaka · 2022 年8 月 29 日 06:05

现在就是集群容量增长太快了，1天新增300G （实际业务量没有这么多），空间就是没法回收

OnTheRoad · 2022 年8 月 29 日 06:08

我们这没那么大的数据量，里边的数据都是清洗完毕的数据，平时 TiDB 用于做离线分析。所以，即使不回收，影响暂时不明显。但是，早晚都需要处理。

wakaka · 2022 年8 月 29 日 06:10

嗯嗯好吧现在就是没法确定不升级如何解决感谢你的回答

OnTheRoad · 2022 年8 月 29 日 06:12

官方好像也没出对应的 patch，应该只能升级了。我们估计得10月以后，才能着手升级的事情。如果您近期有什么方法解决掉这个问题，麻烦您告知一下。

wakaka · 2022 年8 月 29 日 06:13

主要是集群太大，不知道升级后会不会有别的bug，就还没操作升级。嗯嗯好如果操作了我回复你

特雷西-迈克-格雷迪 · 2022 年9 月 25 日 03:40

集群升级最好做下测试，特别是升级大版本；你们是有定时作业吗，为啥gc会怎么繁忙？

OnTheRoad · 2022 年9 月 25 日 11:59

这个是触发了 bug

system · 2022 年10 月 31 日 19:13

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。