TiFlash缩容一直没动静,region 还在增加

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:

【概述】执行 scale in 缩容tiflash

【背景】tiflash崩溃了,再也起不来,官方建议缩容然后重新做节点,按照文档执行了 set rep = 0 确认OK后,然后 scale in节点 ,节点数原来是 1,等于直接先关掉 tiflash了.现在的问题是,一直是 Offline ,然后 region 观察一直在上涨,现在,不敢按照官方的手动文档处理,那个文档本身描述就有问题,线上的,很重要不敢乱来

这个指令已经不能用 了

【现象】

[root@10_10_10_244 ~]# tiup ctl:v5.0.1 pd -u http://10.10.10.79:2379 store 2178519
Starting component ctl: /root/.tiup/components/ctl/v5.0.1/ctl pd -u http://10.10.10.79:2379 store 2178519
{
“store”: {
“id”: 2178519,
“address”: “10.10.10.58:3930”,
“state”: 1,
“labels”: [
{
“key”: “engine”,
“value”: “tiflash”
}
],
“version”: “v5.0.1”,
“peer_address”: “10.10.10.58:20170”,
“status_address”: “10.10.10.58:20292”,
“git_hash”: “1821cf655bc90e1fab6e6154cfe994c19c75d377”,
“start_timestamp”: 1622877183,
“deploy_path”: “/tidb-deploy/tiflash-9000/bin/tiflash”,
“last_heartbeat”: 1624748250562159830,
“state_name”: “Offline”
},
“status”: {
“capacity”: “3.436TiB”,
“available”: “1.823TiB”,
“used_size”: “1.613TiB”,
“leader_count”: 0,
“leader_weight”: 1,
“leader_score”: 0,
“leader_size”: 0,
“region_count”: 30132,
“region_weight”: 1,
“region_score”: 2217763,
“region_size”: 2217763,
“start_ts”: “2021-06-05T15:13:03+08:00”,
“last_heartbeat_ts”: “2021-06-27T06:57:30.56215983+08:00”,
“uptime”: “519h44m27.56215983s”
}
}

“region_size”: 2217763, 数量不降低,一直在增加,已经设置了所有表

SELECT * FROM information_schema.tiflash_replica 已经确认没有任何表了

【业务影响】

【TiDB 版本】 5.0.1

【附件】

  1. TiUP Cluster Display 信息

  2. TiUP Cluster Edit Config 信息

  3. TiDB- Overview 监控

  • 对应模块日志(包含问题前后1小时日志)

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

1 个赞

Hi, 如果存在增删改查,region 就是会增加的。 set tiflash replica = 0后相当于不会再使用 TiFlash 了,目前是安全的。方便的话,你可以提供 tiflash 的 error log 以便我们排查为什么 TiFlash 挂掉了吗?

彻底下线这个 tiflash 节点的方法是:
手动在 PD 中清除同步规则,可以用 https://docs.pingcap.com/zh/tidb/stable/scale-tidb-using-tiup#方案二手动缩容-tiflash-节点 中的方法手动 curl 来删除;或者通过工具删除 ${tiflash-bin-dir-path}/flash_cluster_manager/flash_cluster_manager --config ${tiflash-config-toml-file-path} --clean_pd_rules

收到,已按照方法解决.目前等待扩容完成再尝试恢复iflash

好的,如果已经解决可以梳理下解决步骤方便其他同学遇到类似问题作为参考,感谢!

线上环境,所以操作都要很谨慎
1.因为TiFlash节点只有1个,根据指导, 确认 方案一:通过 TiUP 缩容 TiFlash 节点 这个操作方案,无法达到目的
2.使用 方案二:手动缩容 TiFlash 节点 ,这里,因为唯一的TiFlash节点已经崩溃,而且无法恢复,所以操作步骤都是确认才能处理,官方文档里面,


这个手动设置store为 Tombstone已经无法使用,请官方修改下文档,以免误导,我在测试环境预先执行了一遍,发现这个无法使用,所以谨慎起见都是先确认能按照实际操作

目前扩容KV中,等扩容完成再尝试重新上线tiflash

好的,重新上线之后可以再反馈下效果:pray:

历时一周,tikv扩容完成,
重新开启TiFlash,同步数据直接挂了.现在一直不断重启TiFlash进程

TiFlash 的 LOG 信息能否提供一份

[2021/07/06 09:59:25.265 +08:00] [WARN] [] [“DB::RegionPtrWithBlock::CachePtr DB::GenRegionPreDecodeBlockData(const RegionPtr&, DB::Context&): Got error while reading region committed cache: DB::Exception: Raw TiDB PK: 800000000719528D, Prewrite ts: 425379330791833668 can not found in default cf for key: 7480000000000001FF955F728000000007FF19528D0000000000FAFA18BFC0412BFFB4. Skip pre-decode and keep original cache.”] [thread_id=22]

根据日志反馈情况,确认是 5.0.1 的bug ,建议升级到5.0.2 …忧伤

:rofl::rofl: 升起来!

线上系统的,风险很大,早上开启TiFlash同步了 200G的数据,以为已经OK了
结果导致大量的查询失败,赶紧又全部撤了TiFlash

还是整体升级下再同步数据,最新版本是 5.0.3 ,可以直接升级到这个版本使用。

是的,准备升级中,希望升级后不要再崩了…我 4.0.10 已经用了很久了
业务都很成熟的使用了这个TiFlash提供的性能提升
所以不怎么敢升级就是这个原因,

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。