lmy012
(Lmy012)
1
为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。
- 【TiDB 版本】:V4.0
- 【问题描述】:昨天DM 同步任务 重跑(remove-meta: true ) ,今天发现tiflash同步到19%的时候卡住,这个表之前同步过一次,是可以正常同步的。不清楚具体原因,还请帮忙看看,谢谢。
架构,2tidb、3pd、2tiflash、12tikv
相关配置:
[
{
“group_id”: “pd”,
“id”: “default”,
“start_key”: “”,
“end_key”: “”,
“role”: “voter”,
“count”: 2,
“location_labels”: [
“host”
]
1 个赞
来了老弟
2
辛苦将 tiflash log 目录下的日志打包上传下。
尝试设置副本数为 0,并重新进行同步看是否可以
lmy012
(Lmy012)
3
1 个赞
请问这个集群是 v4.0.0 版本吗?方便升级到 4.0 最新版吗?v4.0.2 之前是有一些已知的同步数据的问题。
lmy012
(Lmy012)
5
我们的集群是4.0的
更新下最新的进展,我们把副本数改为2之后,可以同步到tiflash,即:
ALTER TABLE xxx SET TIFLASH REPLICA 2;
但之前没有改副本2的时候,是一直同步不了,这一点能确定原因吗?
数据同步和副本数设置应该没有关系,建议采用 v4.0.2 以后的版本(最好是最新版<v4.0.4>),具体原因需要提供 pd,tikv 和 tiflash 更完整的 log 才能排查。
来了老弟
7
hi,请问是否已经升级了呢,升级后 tiflash 是否可以正常同步数据了。
lmy012
(Lmy012)
8
没有升级,直接把副本改为2就可以同步,我们部署了2个tiflash,当时查看其中一个tiflash有个err的日志文件,一直在报错,但另外一个tiflash却并没有那个错误日志。所以怀疑有err日志文件的实例是存在异常的。但由于之前tikv有个节点异常,导致整个集群挂了,影响了生产,直接整库铲了……所以现在也没办法定位了。
ALTER TABLE xxx SET TIFLASH REPLICA 2;
1 个赞
来了老弟
9
额,好的,如果是三副本的三节点的 tikv,是有一个冗余的。
感谢反馈,有问题欢迎开新帖我们一起看下
lmy012
(Lmy012)
10
我们的tikv有10来个节点,但是有一个tikv-server一直在自动启动,但是没法拉起来。整个集群select数据也会报错,当时完全没办法查数……我们的副本数是默认3副本。
MySQL [xxxr]> select count(*) from c_cxxxup;
ERROR 9005 (HY000): Region is unavailable
来了老弟
11
额,可以把该节点缩容下线掉,对查询应该是没有影响的。没有日志这边也没法定论,先观察吧,可以在测试环境做一些故障演练,asktug 也有类似的分享,
system
(system)
关闭
12
此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。