TiDB集群缩容后,进入不可用状态

集群经过缩容后,TIKV节点从6降到4,正常能访问一段时间后,进入不可用状态,下面是集群的监控


需要对TIKV扩容吗?

  1. 请问 tidb 版本?
  2. 使用什么方式部署的?
  3. 如何缩容两个store,具体步骤麻烦描述下
  4. 当前无法访问的报错是什么?

你好,前三个步骤请参考我上一个问题:TiKV下线速度慢,而且数据不可用
问题解决后,当前又碰到(不可用状态),不可用状态指的是:查询速度极慢,延迟高达几分钟。
目前TIKV的DOWN节点数据剔除后,并没有在配置表剔除,进行集群滚动升级?和这个有关系吗?

  1. 应该关系不大,从监控看,有 6 个 store 都是 low space,空间应该不足了,也会影响,感觉不应该缩容吧
  2. 如果确认down 的 store 不使用,建议还是完整删除
  3. 速度慢是性能问题,可以排查读写流程哪里有问题。

我使用客户端工具,查询select * from table,这样的语句的返回速度都在30s以上。这个不涉及读写问题吧,现在数据库已经暂停写入操作了,目前只读。需要怎么排查TIKV的性能问题。



集群停止,重启的时候有一个tikv报错

报错日志说明没有正常启动成功服务,所以访问服务报错。可以先检查一下报错的对应的服务 34.40 的日志异常报错以及服务状态。

如果确认查询操作是在 TiKV 请求处理是卡住,可以查看一下 Grafana 监控中的 troubleshooting 的监控页面,里面有 read too slow 的监控面板,可以看一下是慢在哪里了。