海量数据无感知扩容tikv参数调整

llplmlyd · 2021 年1 月 4 日 11:01

看到上述文章说扩容tikv 大量数据的时候可以调整pd的动态参数以减轻对数据库线上业务的影响，

leader-schedule-limit：控制 transfer leader 调度的并发数 4
region-schedule-limit：控制增删 peer 调度的并发数 4
replica-schedule-limit：控制同时进行 replica 调度的任务个数

除此之外请问老师调节以下参数是否也能改善新扩容节点的扩容影响，集群一个节点上面有1.4-1.7T，之前尝试扩容发现业务写入和查询都受到较大影响 region miss数量多

evict-leader-scheduler --在新节点上约束leader调度过来
pd-heartbeat-tick-interval 调整pd和region的心跳间隔tikv参数1m 调整长一些？

请问老师还能调整什么参数避免扩容造成大量迁移使得磁盘io变高region 调度失败等的影响

来了老弟 · 2021 年2 月 23 日 08:28

你这个帖子标签选错额，没关注到，，

看下面的文档看是否可以帮助到你

【TiDB 最佳实践系列】PD 调度策略最佳实践

llplmlyd · 2021 年2 月 25 日 09:44

GangShen · 2021 年2 月 25 日 10:49

请问目前还有问题吗？

llplmlyd · 2021 年2 月 26 日 03:59

有些疑问，有些tikv节点上region count较大，但是实际磁盘占用较小 region size小，在调度的时候，为了降低磁盘的使用量，手动调整了region-weight使得磁盘容量均衡了，但却会出现tikv节点之间region count两极分化的情况，对于这种磁盘 count、size不均衡的情况官方建议如何处理呢，如何更好的均衡。
并且后期集群在运行过程中频繁出现读写热点导致集群卡死 tikv timeout无法连接集群的问题。

而阅读文档说要分析读写热点这块，看dashboard图并无法批量获取对应热/写列表，以及对应的大region列表，造成手动打散热点操作原理上可性操作上十分复杂，有无关于对应的热表对其进行split的更详细的文档

GangShen · 2021 年2 月 26 日 05:27

每个 tikv 节点的磁盘容量、capacity是否一致？
region 调度是根据各个节点之间的 region score 进行调度的，可以看下 PD 监控面板下各个节点的 score 分数是否一致。

dashboard 热力图的纵坐标表示的是对应的 datababse 以及 table ，将鼠标移到对应的亮点上应该是可以定位到是哪个表导致的热点问题，然后分析下这个表上的 SQL 操作看。