一套集群多少REGION个数合适呢

不知道一套集群超过800W+个REGION算合理么,还有更大的么

集群region太多,在PD和带宽上可能出现瓶颈,可以看看这个:
海量 Region 集群调优最佳实践 | PingCAP Docs

1 个赞

800w region 大概意味着270w leader,按照每个实例2w leader来算,大概135个TiKV 实例,按照单机双实例来算,大概68台TiKV服务器。

1 个赞

你现在有多少region 如果有很多region的话 空region多不多呢 多的话可以做下合并 region太多会影响性能

目前在120个TIKV 在50多太服务器

目前没有多少空REGION的,存储了3年左右的数据,不知道其他大佬对线上是怎么规划的

这个看过,目前遇到写入会把集群写趴

会做读写集群拆分吗

@dbaspace 像咱们这种大集群,建议开启 hibernate region,另外,咱们集群版本是多少啊(这个版本差异还是很大的,每个版本对应的建议是不一样的)

目前是3.0.19,我看REGION 静默功能会影响统计信息,不知道是不是这样

咋还是v3,问个问题,咱们为啥不升级啊(不过咱们集群这么大了,确实不太好升级)

不过在 底版本,每个 store 上建议不要超过 2万 个 region(这个和 官网推荐的 2T 其实有关系的),上面说的 hibername region 和统计信息应该关系不大(没记得有类似问题),上面说的其实都是为了减少 心跳带来的压力,所以 有其他建议:比如说 merge region,更改 扫描 region 的 interval,建议看一下 pd 和 tikv 的参数

因为比较核心的集群,现在稳定了,都是用ansible 升级 虽比较慢,但稳定100%成功,目前用ansbile可以升级到4.0.14版本,升级过程中发现调度器会被清空,过了会就恢复了,算正常吗

记得以前有类似现象,好像不影响,后面修复了还是啥,忘记了:joy:

嗯,就是在驱逐tikv 的时候,添加策略会消失,导致滚动执行剧本异常,通过把添加/删除 驱逐 调度剧本去掉,集群停止写入不会丢数据,可以实现集群正常滚动,就是不知道为什么会这样:grinning:在4.0.9之前用ansible貌似没问题:grin:

稍等,你上面说的信息,我有点没理解,我先给你找找对应的 issue 吧:https://github.com/tikv/pd/issues/3660

集群升级过程,scheduler列表清空 就是早前我提asktug问题

3 个赞

:call_me_hand::call_me_hand:

太多了,TIKV上报心跳的数据会比较大,应该对带宽有更高要求了吧

这是有多少条数据啊