tiflash5.4.2升级6.1.2异常

ALTER DATABASE db_name SET TIFLASH REPLICA count;
``` 一行代码就行了 别纠结了 就是干。先把大查询停了 升级完再开启

不是对整库设置tiflash 副本的,是一批表单独设置的,多个库 。
目前出问题的节点 通过 缩容 再扩容的方式 重建节点 看着是能正常的 。
已经有4个6.1.2的节点了 ,还有3个 准备 双十一之后 通过 缩容再扩容 方式升级 。

set global tidb_allow_mpp=1; mpp先关掉在升级试试

关闭参数后,需要把所有tidb 实例重启一遍。再升级tiflash?

不需要。重启之后开启参数即可。

刚才试了,不行
总结下 尝试过程
开启mpp, 直接升级tiflash。失败
开启mpp, region weight 0.。 失败
关闭mpp, 直接升级tiflash 失败


image

升级失败的报错信息发一下

tiflash-error.log.gz (70.1 KB)

error: get store failed: 2: invalid store ID 1046857, not found

这个store是什么问题

就是这个啊,下线旧的store。结果一直找storeid.
我现在只能通过上下线tiflash 来升级tiflash

看起来是你的tilfash 并没有终止。下线tilfash 的操作说一下

升级方式:k8s 调度的,直接删pod,换镜像
下线方式: pd-ctl delete store id

这个pod还在吗。

日志在podlog.tgz (7.2 MB)

curl 127.0.0.1:2379/pd/api/v1/config/rules/group/tiflash | grep count
确定下 副本数,以及现在有多少在线的tiflash个数

image
最多3副本,大部分都是2副本。不存在副本数大于tiflash的问题

ok. 建议还是先把整个集群版本对齐 在继续看下是否有问题

看看官方怎么看待 tiflash 不能平滑升级的问题,我要手动挨个扩缩容。对于线上业务重度依赖tiflash,体验太差了。
ps: 还有一个小问题,store id 的范围是多大,我这频繁扩缩容 会不会导致id 耗尽
image

  1. 平滑升级这个问题 之前提过,是由于5.3引进的问题,暂时没有好的办法,5.4之后应该不会有问题,我看你的版本是5.4.2 这个版本有pd leader的问题,切换到之后的版本应该就不会有问题,如还有问题。请另开一个帖子。
  2. store id bigint 你应该很难耗尽

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。