pd 中确实有副本状态为 down 的 regin 这个直接移除会有影响不?
PD 认为有一些 region 已经在 TiFlash 上存在 peer,但是实际上 TiFlash 上没有该 peer,PD也一直没有把新的数据调度到 TiFlash
为啥会出现这个情况呢?我前后两次部署 tiflash 设置数据表同步都出现了
PD 认为有一些 region 已经在 TiFlash 上存在 peer,但是实际上 TiFlash 上没有该 peer,PD也一直没有把新的数据调度到 TiFlash
为啥会出现这个情况呢?我前后两次部署 tiflash 设置数据表同步都出现了
直接移除 store_id 为13595 的 down_peer 即可,会自动重新补充 region 的 peer。
第一次部署成功之后,同步数据就出现卡住的问题暂时无法确定。
12/25 强制下线时,3~6的表现比较奇怪,我们内部会尝试复现这个问题确定一下。
强制下线 TiFlash 节点之前,需要在确保 TiFlash 集群剩余节点数大于等于所有数据表的最大副本数,否则需要修改相关表的 TiFlash 副本数。或者在强制下线之后,手动在 PD 中清除同步规则。猜测目前的情况是强制下线时遗留了一些问题导致的。
https://docs.pingcap.com/zh/tidb/stable/scale-tidb-using-tiup#方案二手动缩容-tiflash-节点
可以确认下您目前使用的 TiUP 版本吗?tiup --version
还需要请教一些问题:
1 同步速度与哪些配置有关系?数据量大的表(6千万左右)同步超级慢呀
2 集群中只有一个 tiflash , 设置表的副本都为1,多张表的同步会阻塞吗?
3 又出现了好多 副本状态为 down 的 region 呢
老师,我重新下线,手动清除一下 PD 的同步规则(之前的下线没有执行这一步),再尝试重来一次吧
有问题我再来反馈
您那边若能重现也麻烦给我指导一下原因
非常感谢!!
老师,我这边重新部署了 tiflash
部分数据表可以很快同步完成(数据量级相对较小:百万及以下i),部分数据表同步进度一直无法达到 1(数据量级相对较大:千万)
pd 中无 down-peer
请问该如何排查?
请帮忙查看下 tiflash_cluster_manager.log 日志中 id 1302 的行,flash_region_count 的数值是有在增长还是停滞了?
另外可以截图下 Grafana 中的 TiFlash-Summary 看板,Raft 中 “Applying snapshots Count”, “Snapshot Predecode Duration”, “Snapshot Flush Duration” 几个图
看日志和监控,这个表有3个 Region 需要同步到 TiFlash。其中2个已经完成了,还有1个。但是最近1小时内都没有副本调度操作。
麻烦按照以下步骤,先确认下各个组件内的 Region 信息吧
SHOW TABLE <table_name> REGIONS;
确认下 table_id 为 1302 的表存在哪三个 REGION_ID (START_KEY 以 t_1302_r
为前缀的)tiup ctl pd -u http://<pd-ip>:<pd-port> region <region_id>
,分别确认 Region 在 PD 中的 peer 信息。echo "DBGInvoke dump_all_region(1302,true)" | curl "http://<tiflash-ip>:<tiflash-http-port>/?query=" --data-binary @-
,确认下在 TiFlash 节点中的 Region 信息tiup ctl pd -u http://: region 15506
tiup ctl pd -u http://: region 27517
tiup ctl pd -u http://: region 26865
Region 15506 还是存在 down_peer 。可以尝试再用上面的命令处理下,看是否能恢复正常。
另外请协助排查下原因:
grep 'region_id=15506' tiflash_tikv.log*
看下 TiFlash 日志中有无相关信息
grep 'region-id=15506' pd.log
看下 PD 日志中的相关信息
down_peer 手动移除后,同步进度还是保持不变,无法自动恢复
麻烦到 store_id 为 1 的 TiKV 节点上,grep 'region_id=15506' tikv.log*
看下 TIKV中的日志信息
麻烦你把 grep 出来的TiKV日志重定向到文件,上传一下,需要更完整的信息来排查。
tikv-region-15506.txt (19.9 KB)
因为这张表同步进度一直无法达到1,我前后操作过几次(使用下面两条sql),所有日志里会有不同日期的。
ALTER TABLE table SET TIFLASH REPLICA 1
ALTER TABLE table SET TIFLASH REPLICA 0
请问可以把 tikv, pd, tiflash 的日志分别打包一下上传么?tiflash日志包括 tiflash.log tiflash_tikv.log tiflash_cluster_manager.log