TiDB 3.0.2 版本某业务 TiKV 宕机测试

TiDB3.0.2版本某业务TiKV宕机测试

                                                          *--2019-08-21 刘春雷*

1、汇总

1.1、概述

信息: 版本2.1.0 master版本,tidb实例3个,tikv机器4台(实例14个)

问题: 线上某tidb集群的tikv机器宕机后,QPS表现直接至0,且恢复时间较长,几十分钟级别,且需要宕机的机器起来后,才能快速恢复业务

处理: 升级, 2.1.0 master 版本 至 3.0.2 版本

测试: 进行TiKV宕机测试(上面包含4个tikv实例)

此处:感谢官方支持升级~

2、具体

2.1、拓扑

3个tidb上层是 DNS 与TGW,流量被负载至3个tidb实例

tikv机器,单机4个tikv实例 image

2.2、集群信息

数据量:9T

regions:14w

2.3、宕机

关闭某tikv机器,上面有4个tikv实例

2.4、监控情况

可以从监控看出:QPS有短暂的下降, 1500左右下降至 1000左右,大约影响时间 30s内

再次开启后,QPS有下降, 1500下降至 1000左右,大约影响时间 1分半钟左右

2.5、业务反馈

业务反映:没有发现业务异常与报错

1赞