近期数据库状态总是disconnect或者down，且频繁出现no space故障

racecdj · 2020 年9 月 3 日 14:11

tikv-detail监控信息：

racecdj · 2020 年9 月 3 日 14:15

对应的pd log和部分tikv log：

racecdj · 2020 年9 月 6 日 10:38

请问是哪个组件出了问题？

yilong · 2020 年9 月 7 日 04:07

racecdj · 2020 年9 月 7 日 06:17

好的，因为现在10个tikv节点本质上是基于三台服务器所创建的虚拟机，确实会存在机器负载不过来的情况。现在计划将10个节点的1T空间的tikv迁移成四台3T的tikv节点（逐一迁移），这样是否可行？

yilong · 2020 年9 月 7 日 07:42

racecdj · 2020 年9 月 7 日 07:46

使用 raftstore.hibernate-regions 开启静默状态？此时是否不能进行业务操作？
用4台机器测试一下是怎么做呢？
1）是否还能用当前tidb和pd组件，还是需要重新创建？
2）统一迁移是指一次性添加四个tikv组件进行扩容？
3）迁移过程中怎么去加速迁移？是否根据https://asktug.com/t/topic/1669一文，修改一下参数？

yilong · 2020 年9 月 7 日 09:49

开启静默 region 不影响业务，这里是猜测因为如果从 10 个 tikv 导入 3 个 tikv，那么每个 tikv 中的 region 数量会增加很多，可能导致 raft store cpu 增高，这时可以考虑开启静默 region
[FAQ] 如何开启静默 region or hibernate region
业务上需要你们最好测试下，毕竟集群配置都改变了，不是说单纯的增加，是数量减少，只增加了磁盘容量，不好评估。可以按照你的方案先扩容一台试试，
可以参考文档增加均衡速度。