苏州刘三枪
1
【 TiDB 使用环境】生产集群
【问题】:其中一个tikv节点GC停止
【TiDB 版本】:4.0.11
【附件】:
172.16.72.17 节点gc停止:
未提交事务排查:
SELECT *FROM INFORMATION_SCHEMA.CLUSTER_PROCESSLIST
WHERE command<>‘Sleep’ 没有排查到未提交的事务。
配置:
SELECT VARIABLE_NAME, VARIABLE_VALUE FROM mysql.tidb WHERE VARIABLE_NAME LIKE “tikv_gc%”;

相关日志:
grep -i ‘gc_worker’ tikv.log >> error.log
最近2天过滤的日志,原日志文件太大。
error.log (104.5 KB)
日志中扫描失败的region信息
其它补充信息:
- case_search_relationship_sync_v3 这个表大概有近6亿数据,在8月6号至8月7号中午有加索引操作。
safe_point 一直在变化,但是监控显示为0。处于不工作状态。
3 个赞
1、拿下最近 2 小时的 tikv-details 的 grafana 监控
2、tikv-details grafana 监控单独选择 172.16.72.17 导出最近 2 小时的监控
监控导出方法参考:
2 个赞
苏州刘三枪
3
2 个赞
和 172.16.72.17 相同时间段 10:35 ~ 13:35 的所有的 TiKV 实例的 TiKV-Details 监控也辛苦导出下,谢谢 ~
1 个赞
苏州刘三枪
5
1 个赞
另外,辛苦拿下 gc leader 所在 tidb server 的 2 小时的 log,和 GC 出现异常的 172.16.72.17 的 2 小时的 tikv.log 和 stderr.log ~
1 个赞
苏州刘三枪
7
tidb这边开了通用日志,1分钟产生1个文件大概300MB,需要查找哪些信息我过滤一下。
不确定哪些信息是你那边需要的,留个邮箱都发给你。
1 个赞
tidb server 的日志 grep gc 收集下吧, GC 出现异常的 172.16.72.17 的 2 小时的 tikv.log 和 stderr.log ,可以正常提供,如果文件比较大,那么方便上传到百度网盘吗?
1 个赞
苏州刘三枪
9
链接:https://pan.baidu.com/s/16L3cJ0SOWE0pTaF15s8yVA
提取码:1234
tikv的stderr.log文件是空的,没有数据。
grep gc 收集的最新1小时的,老的数据都跟其他节点合并了。
1 个赞
cfzjywxk
(cfzjywxk)
11
监控看 172.16.72.17 上面没有 leader?
1 个赞
嗯嗯,看对应的监控能看到 172.16.72.17 这个 tikv 上的 leader 为 0:
建议你那边看下 pd 调度中是否有针对这个 store 的 evict-leader schedule 存在,如果存在,请在业务低峰期移出,然后再观察下 GC 以及该节点 leader 分布的情况 ~
2 个赞
苏州刘三枪
13
好的,我试试
» scheduler config evict-leader-scheduler
{
“store-id-ranges”: {
“5”: [
{
“start-key”: “”,
“end-key”: “”
}
]
}
}
移除掉调度器,leader开始均衡,GC开始工作了
scheduler remove evict-leader-scheduler
周末早上不知道谁启动了一个调度器把这个节点的leader都移走了。这块有办法通过日志排查么
这块可以看下当时的 pd leader 的日志,但是这个日志不是审计日志,没有更详细的信息,比如哪个用户操作的,当时登录进来的 ip 地址这些。所以还是建议您那里看下内部是否有记录更详细的审计信息哈 ~
苏州刘三枪
关闭
16
此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。