tikv扩容缩容,出现大量慢查询

【 TiDB 使用环境】生产环境
【 TiDB 版本】
【复现路径】做过哪些操作出现的问题
zone1 副本进行扩容新服务器,然后缩容旧服务器,出现大量insert慢查询
如何解救

另外,操作了 tiup ctl:v6.5.5 pd config set label-property reject-leader zone z1 --pd=“http://10.100.140.123:2379”,这个脚本的回退操作是什么

【遇到的问题:问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】

你是同时进行扩容和缩容?

是的,只是一个副本的

如何取消缩容操作,正在查找脚本,还没找到

tiup ctl:v6.5.5 pd config set label-property reject-leader zone z1 这个脚本没有生效,这个zone z1的leader并没有迁走

1个副本的是什么意思,3副本设置改1了吗

共3个副本,只对第一个副本的服务器实例进行了扩容缩容操作

没看懂 说真的

集群一个三个副本,zone的拓扑规划为z1,z2,z3,现在是对z1里的tikv实例进行了扩容,缩容操作

太激进了,磁盘资源消耗很大的,可以调低region调度速度降低资源使用量
调节region调度速度
登录pd-ctl
./pd-ctl -i -u http://0.0.0.0:2379

store limit // 显示所有 store 添加和删除 peer 的速度上限
store limit add-peer // 显示所有 store 添加 peer 的速度上限
store limit remove-peer // 显示所有 store 删除 peer 的速度上限
store limit all 5 // 设置所有 store 添加和删除 peer 的速度上限为每分钟 5 个
store limit 1 5 // 设置 store 1 添加和删除 peer 的速度上限为每分钟 5 个
参照这个设置小点试试

1 个赞

设置为1了,还是有一些慢查询,如何才能取消呢

把region手动分配一下

以前没操作过,请问大神有操作命令么

https://docs.pingcap.com/zh/tidb/stable/geo-distributed-deployment-topology#pd-参数
6.5.5已经不支持这个label-property配置了吧

扩缩容的背景是啥?跨机房部署?扩容异地机房?
具体扩缩容如何操作的?
出现慢查询后大概分析原因了吗?是由于leader跑异地机房了吗?

嗯,我到时候修改下参数
问题原因找到了,就是缩容导致的,扩容无影响
业务sql插入数据时,找不到leader,backoff重试导致的,直接将缩容节点stop掉就可以了

总结一下,做个记录:

  1. 线上业务tikv做缩容,不要直接tiup cluster scale-in 集群名 --node 10.100.100.101:20161 --node 10.100.100.102:20161,这样会出现大面积dml慢查询,backoff重试
  2. tikv扩容几乎没有影响,或者说性能影响低
  3. tikv下线操作先手动进行leader迁移:tiup ctl:v6.5.5 pd store weight 69804641 0 1 --pd=“http://10.100.100.111:2379
  4. 然后再进行scale-in缩容
  5. 应急操作直接stop掉下线的tikv instance:tiup cluster stop 集群名 --node 10.100.100.101:20161 --node 10.100.100.102:20161

满足集群可用情况下,可以直接执行第5点的stop

嗯,是的,今天应急就这么操作的,立马生效

缩容或者扩容都会增加系统IO,会引起SQL执行慢

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。