TiFlash 同步无进度问题

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:

【TiDB 版本】
V5.0.0
集群架构 3 tidb + 3 tikv + 3 pd + 1 tiflash

【问题描述】

已搭建 TiFlash 单节点:

开启 placement-rules :

因为只有 1 台 tiflash ,通过 pd-ctl 更新 count 值:

执行同步语句:

image

available 一直为0, progress 也为0:

是否还遗漏了哪步操作,大佬们帮忙看下,谢谢!

按照这里的介绍排查下呢 TiFlash 常见问题排查

根据你的文档一步步排查,现在看到检查DDL:

这些是不是会影响?使用 cancel 命令,返回 DDL JOB not found:

synced 状态的 DDL job 已经是正常执行完了,所以 cancel 返回 job not found 是正常的。麻烦提供下 TiFlash log 目录下的 tiflash_manager 日志。

tiflash_cluster_manager.log (23.5 KB)

[2021/05/20 14:54:48.741 +08:00] [ERROR] [root] [can not get tiflash replica info from tidb: [(‘172.26.55.91:10080’, Exception(‘unexpected status code 400 from http://172.26.55.91:10080/tiflash/replica’,)), (‘172.26.55.92:10080’, Exception(‘unexpected status code 400 from http://172.26.55.92:10080/tiflash/replica’,)), (‘172.26.55.93:10080’, Exception(‘unexpected status code 400 from http://172.26.55.93:10080/tiflash/replica’,))]]

建议排查下从 tiflash 节点到 TiDB 节点(172.26.55.91:10080)网络是否正常。

telnet 端口都正常

curl http://172.26.55.93:10080/tiflash/replica 执行下这个看看

[tikv:9006]GC life time is shorter than transaction duration, transaction starts at 2021-05-19 14:25:16.451 +0800 CST, GC safe point is 2021-05-20 10:05:49.247 +0800 CST

先针对这个报错处理下,tikv_gc_life_time 这个参数现在设置的多大?如果比较小可以 update mysql.tidb set variable_value=‘30m’ where variable_name=‘tikv_gc_life_time’; 调大一些。

原来是10分钟:

现已更新成 30分钟:

然后重启了 tiflash:

tiflash_cluster_manager.log 仍然报错:

收到,问题正在内部分析。

调整完 GC 时间之后,curl http://172.26.55.93:10080/tiflash/replica 还报错吗?

[tikv:9006]GC life time is shorter than transaction duration, transaction starts at 2021-05-19 14:25:16.451 +0800 CST, GC safe point is 2021-05-21 10:38:06.202 +0800 CST

还是报错

收到,问题正在跟进,另外辛苦根据右下角的 联系社区专家 填写下信息,方便在问题有结论的时候,我们能及时联系到您。image

已填写,谢谢大汉子帮助!

1 个赞

:+1::+1::+1:

请问环境还在吗?方便执行下 :curl http://172.26.55.93:10080/tiflash/replica 然后拿下 TiKV 和 TiDB 的报错日志。

环境还在,跑了这个命令,tidb 的 tidb_stderr.log
和 tikv 的 tikv_stderr.log 都没有输出

执行完命令之后,还是同样的报错吗?