tiflash 同步卡住问题

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:V4.0
  • 【问题描述】:昨天DM 同步任务 重跑(remove-meta: true ) ,今天发现tiflash同步到19%的时候卡住,这个表之前同步过一次,是可以正常同步的。不清楚具体原因,还请帮忙看看,谢谢。

架构,2tidb、3pd、2tiflash、12tikv
相关配置:
[
{
“group_id”: “pd”,
“id”: “default”,
“start_key”: “”,
“end_key”: “”,
“role”: “voter”,
“count”: 2,
“location_labels”: [
“host”
]

1 个赞

辛苦将 tiflash log 目录下的日志打包上传下。
尝试设置副本数为 0,并重新进行同步看是否可以

链接: https://pan.baidu.com/s/1XMOTfF1bW3_aUsZnLxj-UA 提取码: my3t
日志如上:

已经尝试过改为0.然后在改为1重新同步,一直不行

1 个赞

请问这个集群是 v4.0.0 版本吗?方便升级到 4.0 最新版吗?v4.0.2 之前是有一些已知的同步数据的问题。

我们的集群是4.0的
image

更新下最新的进展,我们把副本数改为2之后,可以同步到tiflash,即:
ALTER TABLE xxx SET TIFLASH REPLICA 2;

但之前没有改副本2的时候,是一直同步不了,这一点能确定原因吗?

数据同步和副本数设置应该没有关系,建议采用 v4.0.2 以后的版本(最好是最新版<v4.0.4>),具体原因需要提供 pd,tikv 和 tiflash 更完整的 log 才能排查。

hi,请问是否已经升级了呢,升级后 tiflash 是否可以正常同步数据了。

没有升级,直接把副本改为2就可以同步,我们部署了2个tiflash,当时查看其中一个tiflash有个err的日志文件,一直在报错,但另外一个tiflash却并没有那个错误日志。所以怀疑有err日志文件的实例是存在异常的。但由于之前tikv有个节点异常,导致整个集群挂了,影响了生产,直接整库铲了……所以现在也没办法定位了。

ALTER TABLE xxx SET TIFLASH REPLICA 2;

1 个赞

额,好的,如果是三副本的三节点的 tikv,是有一个冗余的。

感谢反馈,有问题欢迎开新帖我们一起看下

我们的tikv有10来个节点,但是有一个tikv-server一直在自动启动,但是没法拉起来。整个集群select数据也会报错,当时完全没办法查数……我们的副本数是默认3副本。

MySQL [xxxr]> select count(*) from c_cxxxup;
ERROR 9005 (HY000): Region is unavailable

额,可以把该节点缩容下线掉,对查询应该是没有影响的。没有日志这边也没法定论,先观察吧,可以在测试环境做一些故障演练,asktug 也有类似的分享,

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。