tiflash 副本不可用,同步数据进度为0


pd 中确实有副本状态为 down 的 regin 这个直接移除会有影响不?

PD 认为有一些 region 已经在 TiFlash 上存在 peer,但是实际上 TiFlash 上没有该 peer,PD也一直没有把新的数据调度到 TiFlash

为啥会出现这个情况呢?我前后两次部署 tiflash 设置数据表同步都出现了

直接移除 store_id 为13595 的 down_peer 即可,会自动重新补充 region 的 peer。

第一次部署成功之后,同步数据就出现卡住的问题暂时无法确定。
12/25 强制下线时,3~6的表现比较奇怪,我们内部会尝试复现这个问题确定一下。

强制下线 TiFlash 节点之前,需要在确保 TiFlash 集群剩余节点数大于等于所有数据表的最大副本数,否则需要修改相关表的 TiFlash 副本数。或者在强制下线之后,手动在 PD 中清除同步规则。猜测目前的情况是强制下线时遗留了一些问题导致的。

https://docs.pingcap.com/zh/tidb/stable/scale-tidb-using-tiup#方案二手动缩容-tiflash-节点

可以确认下您目前使用的 TiUP 版本吗?tiup --version

image

还需要请教一些问题:
1 同步速度与哪些配置有关系?数据量大的表(6千万左右)同步超级慢呀
2 集群中只有一个 tiflash , 设置表的副本都为1,多张表的同步会阻塞吗?

3 又出现了好多 副本状态为 down 的 region 呢

老师,我重新下线,手动清除一下 PD 的同步规则(之前的下线没有执行这一步),再尝试重来一次吧

有问题我再来反馈

您那边若能重现也麻烦给我指导一下原因

非常感谢!!

老师,我这边重新部署了 tiflash
部分数据表可以很快同步完成(数据量级相对较小:百万及以下i),部分数据表同步进度一直无法达到 1(数据量级相对较大:千万)

image

pd 中无 down-peer

请问该如何排查?

请帮忙查看下 tiflash_cluster_manager.log 日志中 id 1302 的行,flash_region_count 的数值是有在增长还是停滞了?

另外可以截图下 Grafana 中的 TiFlash-Summary 看板,Raft 中 “Applying snapshots Count”, “Snapshot Predecode Duration”, “Snapshot Flush Duration” 几个图

flash_region_count 的数值一直在增长



看日志和监控,这个表有3个 Region 需要同步到 TiFlash。其中2个已经完成了,还有1个。但是最近1小时内都没有副本调度操作。

麻烦按照以下步骤,先确认下各个组件内的 Region 信息吧

  1. 先在 TiDB 中使用 SHOW TABLE <table_name> REGIONS; 确认下 table_id 为 1302 的表存在哪三个 REGION_ID (START_KEY 以 t_1302_r 为前缀的)
  2. 使用 tiup ctl pd -u http://<pd-ip>:<pd-port> region <region_id> ,分别确认 Region 在 PD 中的 peer 信息。
  3. echo "DBGInvoke dump_all_region(1302,true)" | curl "http://<tiflash-ip>:<tiflash-http-port>/?query=" --data-binary @-,确认下在 TiFlash 节点中的 Region 信息

tiup ctl pd -u http://: region 15506

tiup ctl pd -u http://: region 27517

tiup ctl pd -u http://: region 26865

Region 15506 还是存在 down_peer :cry:。可以尝试再用上面的命令处理下,看是否能恢复正常。

另外请协助排查下原因:
grep 'region_id=15506' tiflash_tikv.log* 看下 TiFlash 日志中有无相关信息
grep 'region-id=15506' pd.log 看下 PD 日志中的相关信息

tiflash 日志中无相关信息

pd 中有

down_peer 手动移除后,同步进度还是保持不变,无法自动恢复

麻烦到 store_id 为 1 的 TiKV 节点上,grep 'region_id=15506' tikv.log* 看下 TIKV中的日志信息

麻烦你把 grep 出来的TiKV日志重定向到文件,上传一下,需要更完整的信息来排查。

tikv-region-15506.txt (19.9 KB)

因为这张表同步进度一直无法达到1,我前后操作过几次(使用下面两条sql),所有日志里会有不同日期的。
ALTER TABLE table SET TIFLASH REPLICA 1
ALTER TABLE table SET TIFLASH REPLICA 0

请问可以把 tikv, pd, tiflash 的日志分别打包一下上传么?tiflash日志包括 tiflash.log tiflash_tikv.log tiflash_cluster_manager.log