一套集群多少REGION个数合适呢

dbaspace · 2021 年12 月 6 日 05:54

不知道一套集群超过800W+个REGION算合理么，还有更大的么

caiyfc · 2021 年12 月 6 日 06:03

集群region太多，在PD和带宽上可能出现瓶颈，可以看看这个：
海量 Region 集群调优最佳实践 | PingCAP Docs

dockerfile · 2021 年12 月 6 日 06:52

800w region 大概意味着270w leader，按照每个实例2w leader来算，大概135个TiKV 实例，按照单机双实例来算，大概68台TiKV服务器。

林先森cC · 2021 年12 月 6 日 07:07

你现在有多少region 如果有很多region的话空region多不多呢多的话可以做下合并 region太多会影响性能

dbaspace · 2021 年12 月 6 日 07:54

目前在120个TIKV 在50多太服务器

dbaspace · 2021 年12 月 6 日 07:56

目前没有多少空REGION的，存储了3年左右的数据，不知道其他大佬对线上是怎么规划的

dbaspace · 2021 年12 月 6 日 07:57

这个看过，目前遇到写入会把集群写趴

dbaspace · 2021 年12 月 6 日 07:59

会做读写集群拆分吗

spc_monkey · 2021 年12 月 15 日 06:53

@dbaspace 像咱们这种大集群，建议开启 hibernate region，另外，咱们集群版本是多少啊（这个版本差异还是很大的，每个版本对应的建议是不一样的）

dbaspace · 2021 年12 月 16 日 14:00

目前是3.0.19，我看REGION 静默功能会影响统计信息，不知道是不是这样

spc_monkey · 2021 年12 月 17 日 02:41

咋还是v3，问个问题，咱们为啥不升级啊（不过咱们集群这么大了，确实不太好升级）

spc_monkey · 2021 年12 月 17 日 02:44

不过在底版本，每个 store 上建议不要超过 2万个 region（这个和官网推荐的 2T 其实有关系的），上面说的 hibername region 和统计信息应该关系不大（没记得有类似问题），上面说的其实都是为了减少心跳带来的压力，所以有其他建议：比如说 merge region，更改扫描 region 的 interval，建议看一下 pd 和 tikv 的参数

dbaspace · 2021 年12 月 17 日 06:16

因为比较核心的集群，现在稳定了，都是用ansible 升级虽比较慢，但稳定100%成功，目前用ansbile可以升级到4.0.14版本，升级过程中发现调度器会被清空，过了会就恢复了，算正常吗

spc_monkey · 2021 年12 月 17 日 06:32

记得以前有类似现象，好像不影响，后面修复了还是啥，忘记了

dbaspace · 2021 年12 月 17 日 07:11

嗯，就是在驱逐tikv 的时候，添加策略会消失，导致滚动执行剧本异常，通过把添加/删除驱逐调度剧本去掉，集群停止写入不会丢数据，可以实现集群正常滚动，就是不知道为什么会这样在4.0.9之前用ansible貌似没问题

spc_monkey · 2021 年12 月 17 日 07:40

稍等，你上面说的信息，我有点没理解，我先给你找找对应的 issue 吧：https://github.com/tikv/pd/issues/3660

dbaspace · 2021 年12 月 17 日 07:59

集群升级过程，scheduler列表清空就是早前我提asktug问题

spc_monkey · 2021 年12 月 17 日 08:01

Hacker_uYPsYHbi · 2022 年3 月 3 日 05:08

太多了，TIKV上报心跳的数据会比较大，应该对带宽有更高要求了吧

TiDBer_u3l1hNrT · 2022 年4 月 15 日 16:09

这是有多少条数据啊