gc scan_keys failed

【 TiDB 使用环境】生产集群

【问题】:其中一个tikv节点GC停止

【TiDB 版本】:4.0.11

【附件】:
172.16.72.17 节点gc停止:

未提交事务排查:
SELECT *FROM INFORMATION_SCHEMA.CLUSTER_PROCESSLIST WHERE command<>‘Sleep’ 没有排查到未提交的事务。

配置:
SELECT VARIABLE_NAME, VARIABLE_VALUE FROM mysql.tidb WHERE VARIABLE_NAME LIKE “tikv_gc%”;

image

相关日志:


grep -i ‘gc_worker’ tikv.log >> error.log
最近2天过滤的日志,原日志文件太大。
error.log (104.5 KB)

日志中扫描失败的region信息

其它补充信息:

  1. case_search_relationship_sync_v3 这个表大概有近6亿数据,在8月6号至8月7号中午有加索引操作。

safe_point 一直在变化,但是监控显示为0。处于不工作状态。

3 个赞

1、拿下最近 2 小时的 tikv-details 的 grafana 监控

2、tikv-details grafana 监控单独选择 172.16.72.17 导出最近 2 小时的监控

监控导出方法参考:

2 个赞

qcc-tidb-cluster-TiKV-Details_2021-08-09T05_34_55.581Z.rar (1.0 MB)

2 个赞

172.16.72.17 相同时间段 10:35 ~ 13:35 的所有的 TiKV 实例的 TiKV-Details 监控也辛苦导出下,谢谢 ~

1 个赞

qcc-tidb-cluster-TiKV-Details_2021-08-09T08_34_11.130Z.rar (3.6 MB)
生产环境,辛苦加急帮忙排查下

1 个赞

另外,辛苦拿下 gc leader 所在 tidb server 的 2 小时的 log,和 GC 出现异常的 172.16.72.17 的 2 小时的 tikv.log 和 stderr.log ~

1 个赞

tidb这边开了通用日志,1分钟产生1个文件大概300MB,需要查找哪些信息我过滤一下。
不确定哪些信息是你那边需要的,留个邮箱都发给你。

1 个赞

tidb server 的日志 grep gc 收集下吧, GC 出现异常的 172.16.72.17 的 2 小时的 tikv.log 和 stderr.log ,可以正常提供,如果文件比较大,那么方便上传到百度网盘吗?

1 个赞

链接:https://pan.baidu.com/s/16L3cJ0SOWE0pTaF15s8yVA
提取码:1234

tikv的stderr.log文件是空的,没有数据。

grep gc 收集的最新1小时的,老的数据都跟其他节点合并了。

1 个赞

好的,收到,这边看下,有新的进展会跟帖回复 ~

1 个赞

监控看 172.16.72.17 上面没有 leader?

1 个赞

嗯嗯,看对应的监控能看到 172.16.72.17 这个 tikv 上的 leader 为 0:

建议你那边看下 pd 调度中是否有针对这个 store 的 evict-leader schedule 存在,如果存在,请在业务低峰期移出,然后再观察下 GC 以及该节点 leader 分布的情况 ~

2 个赞

好的,我试试

» scheduler config evict-leader-scheduler
{
“store-id-ranges”: {
“5”: [
{
“start-key”: “”,
“end-key”: “”
}
]
}
}

移除掉调度器,leader开始均衡,GC开始工作了
scheduler remove evict-leader-scheduler

周末早上不知道谁启动了一个调度器把这个节点的leader都移走了。这块有办法通过日志排查么

这块可以看下当时的 pd leader 的日志,但是这个日志不是审计日志,没有更详细的信息,比如哪个用户操作的,当时登录进来的 ip 地址这些。所以还是建议您那里看下内部是否有记录更详细的审计信息哈 ~

好的!

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。