重要的生产集群拟升级,你会更建议升到哪个LTS版本,6.5.3 或 7.1.1 ?

【 TiDB 使用环境】生产环境 /测试

【 TiDB 版本】目前生产环境集群版本是5.3.1,计划升级到一个较新的稳定维护的版本,初步计划是6.5.3 或 7.1.1。

【复现路径】 升级前会先在测试环境验证,然后再在生产集群直接升级。期待用到加索引提升10倍的特性。一切操作以稳定升级为前提,在此想看看大佬们是否已经在生产环境有用过这几个版本、有没有什么坑点、该注意什么,先集思广益。

【遇到的问题:问题现象及影响】由于集群规模较大,业务复杂,不方便做备份或主从集群,打算使用直接升级这种风险相对较高的方式进行。

【资源配置】 这是一个较大集群,总数据量90TB左右,共62个tikv节点,单tikv实例region数在 7.5万个、leader在2.3万个左右 (集群开启了静默region)

我们的经验是小步走,6.5.3

买原厂服务吧,风险太大

6.5.3,我刚升级过,确实加索引快了很多。从5.1.0升级上去的。
需要注意,要停机升级,还有要保证升级的时候没有dll,总之,关注一下升级文档里提到的注意事项

大佬你们是直接在原集群上升级的吗,还是通过备份集群然后切应用的方式?

先备份,然后原集群上停机升级。
备份是为了以防万一

停机升级这个好像没有看到有强制要求。

我们这个集群从2.0.5 -》3.0.3 -》 4.0.6 -》5.3.1 一路升了好几次过来,每次都是直接升级,由于数据量太大难以备份集群,大佬你们停机升级到是遇到了什么问题吗

有TiFlash要关注第一个
这次我停机升级,还是踩了第3个坑,当时以为停机就没有dll,就没有关注。

当然,是可以在线升级。我这边的环境资源比较差,停机升级更快一些。主要还是业务上允许停机。

2 个赞

是的,如果有停机维护的窗口,这个是最安全和稳妥的。

我们这个是业务复杂、场景众多的 HTAP 集群,容许短暂抖动,不允许我们停机维护,有点像高速上换轮胎、高压线上修电路

那就着重关注一下dll吧,其实我那天升级问题也不大。只是有一个节点上有dll导致tidb节点无法启动,通过其他节点把dll取消了,就好了。

嗯,大佬你们从5.1.0升级上6.5.3比较顺利,那从5.3.1升上去应该也不会出现大的意外,就算有也是见招拆招了

1 个赞

灾备集群可以提上日程了 :thinking:

几年前提过灾备集群的方案,但是被否了。

这个集群有四五十台服务器,说实在的是比较大,现在大环境下难以申请到这么多资源了,那是以前仗着手头宽裕才搞到的

按理说6.5.3 更稳,毕竟7.x还引入了一系列新特性。

所以像平滑轮转升级这种特性就很适合你们这种超大体量集群

是的,正如大佬所言,平滑升级对我们来说是用tidb很关键的一个因素

你们升级版本是等每个kv自己慢慢驱离leader后重启升级的 还是加了-force强制驱离升级的?

先搞v6吧,毕竟稳了一段时间,v7才开始

一般来说我们是等每个kv自己慢慢驱离leader后重启升级的,所以升级TiKV的时候这个过程会比较漫长

我去年有测试过升级4.0.9到5.4 发现驱离leader非常慢卡了好几天,后来生产环境我是直接–force升级的 ,还好用到现在没出现过问题,现在想想风险是非常大的