1.麻烦反馈下具体的 tidb 集群版本,以及在报错开始前是否对集群做过什么操作;
2.从日志中看报错提示的是固定的某几个 region ,可以先看下具体的 region 状态:
(1)查看下 region 状态是否正常:
tiup ctl:<cluster-version> pd -u <pd_ip:pd_port> region <region_id>
(2)如果 region leader 和副本状态均正常,可以看下 region 的mvcc.num_rows 是否很多:
tikv-ctl --host <tikvip>:<tikvport> size -r <region_id>
tikv-ctl --host <tikvip>:<tikvport> region-properties -r <region_id>
(3)若 num_rows 也很多,看下当前集群的 gc 配置是否很长:
select VARIABLE_NAME, VARIABLE_VALUE from mysql.tidb where VARIABLE_NAME like "tikv_gc%";
如果上面几条内容都满足的话,可能是一个已知的 bug ,可以降低 gc 时长看下效果
update mysql.tidb set VARIABLE\_VALUE="xxx" where VARIABLE\_NAME="tikv\_gc\_life\_time";
1 个赞