【 TiDB 使用环境】生产环境 /测试
【 TiDB 版本】目前生产环境集群版本是5.3.1,计划升级到一个较新的稳定维护的版本,初步计划是6.5.3 或 7.1.1。
【复现路径】 升级前会先在测试环境验证,然后再在生产集群直接升级。期待用到加索引提升10倍的特性。一切操作以稳定升级为前提,在此想看看大佬们是否已经在生产环境有用过这几个版本、有没有什么坑点、该注意什么,先集思广益。
【遇到的问题:问题现象及影响】由于集群规模较大,业务复杂,不方便做备份或主从集群,打算使用直接升级这种风险相对较高的方式进行。
【资源配置】 这是一个较大集群,总数据量90TB左右,共62个tikv节点,单tikv实例region数在 7.5万个、leader在2.3万个左右 (集群开启了静默region)
Kongdom
(Kongdom)
4
6.5.3,我刚升级过,确实加索引快了很多。从5.1.0升级上去的。
需要注意,要停机升级,还有要保证升级的时候没有dll,总之,关注一下升级文档里提到的注意事项
大佬你们是直接在原集群上升级的吗,还是通过备份集群然后切应用的方式?
Kongdom
(Kongdom)
6
先备份,然后原集群上停机升级。
备份是为了以防万一
停机升级这个好像没有看到有强制要求。
我们这个集群从2.0.5 -》3.0.3 -》 4.0.6 -》5.3.1 一路升了好几次过来,每次都是直接升级,由于数据量太大难以备份集群,大佬你们停机升级到是遇到了什么问题吗
Kongdom
(Kongdom)
8
有TiFlash要关注第一个
这次我停机升级,还是踩了第3个坑,当时以为停机就没有dll,就没有关注。
当然,是可以在线升级。我这边的环境资源比较差,停机升级更快一些。主要还是业务上允许停机。
2 个赞
是的,如果有停机维护的窗口,这个是最安全和稳妥的。
我们这个是业务复杂、场景众多的 HTAP 集群,容许短暂抖动,不允许我们停机维护,有点像高速上换轮胎、高压线上修电路
Kongdom
(Kongdom)
10
那就着重关注一下dll吧,其实我那天升级问题也不大。只是有一个节点上有dll导致tidb节点无法启动,通过其他节点把dll取消了,就好了。
嗯,大佬你们从5.1.0升级上6.5.3比较顺利,那从5.3.1升上去应该也不会出现大的意外,就算有也是见招拆招了
1 个赞
几年前提过灾备集群的方案,但是被否了。
这个集群有四五十台服务器,说实在的是比较大,现在大环境下难以申请到这么多资源了,那是以前仗着手头宽裕才搞到的
按理说6.5.3 更稳,毕竟7.x还引入了一系列新特性。
所以像平滑轮转升级这种特性就很适合你们这种超大体量集群
是的,正如大佬所言,平滑升级对我们来说是用tidb很关键的一个因素
你们升级版本是等每个kv自己慢慢驱离leader后重启升级的 还是加了-force强制驱离升级的?
一般来说我们是等每个kv自己慢慢驱离leader后重启升级的,所以升级TiKV的时候这个过程会比较漫长
我去年有测试过升级4.0.9到5.4 发现驱离leader非常慢卡了好几天,后来生产环境我是直接–force升级的 ,还好用到现在没出现过问题,现在想想风险是非常大的