Store down了怎么处理

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:4.0.0-Beta1
  • 【问题描述】: 在监控中发现一个store down了,同时访问TIdb非常慢,这个要怎么处理呢 |1|172.16.8.40:20160|0|Up| |4|172.16.8.38:20160|0|Down| |5|172.16.8.39:20160|0|Up|

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

看给到的信息,是有三个 TiKV 节点。问题的定位还需要更多信息

1)提供下挂掉的 TiKV 节点的日志信息

2)TiDB 访问慢的问题,确认下有几个 tidb-server ?是写入慢还是读取慢?另外麻烦提供下 tidb-server 节点的日志信息。

  1. 部分TIKV的错误日志 [2020/03/20 15:29:38.833 +08:00] [ERROR] [transport.rs:163] [“send raft msg err”] [err=“Other(”[src/server/raft_client.rs:214]: RaftClient send fail")"] [2020/03/20 15:29:38.836 +08:00] [ERROR] [transport.rs:163] [“send raft msg err”] [err=“Other(”[src/server/raft_client.rs:214]: RaftClient send fail")"] [2020/03/20 15:29:38.837 +08:00] [ERROR] [transport.rs:163] [“send raft msg err”] [err=“Other(”[src/server/raft_client.rs:214]: RaftClient send fail")"]
  2. tidb的日志 [2020/03/20 15:24:24.895 +08:00] [ERROR] [domain.go:473] [“reload schema in loop failed”] [error="[tikv:9002]TiKV server timeout"] [2020/03/20 15:24:47.142 +08:00] [ERROR] [domain.go:473] [“reload schema in loop failed”] [error="[tikv:9005]Region is unavailable"] [2020/03/20 15:26:39.970 +08:00] [ERROR] [domain.go:473] [“reload schema in loop failed”] [error="[tikv:9005]Region is unavailable"] [2020/03/20 15:27:24.933 +08:00] [ERROR] [domain.go:473] [“reload schema in loop failed”] [error="[tikv:9005]Region is unavailable"] [2020/03/20 15:29:36.685 +08:00] [ERROR] [domain.go:865] [“update bindinfo failed”] [error="[tikv:9005]Region is unavailable"] [2020/03/20 15:36:24.697 +08:00] [ERROR] [domain.go:473] [“reload schema in loop failed”] [error="[tikv:9005]Region is unavailable"]

根据 TiDB 的报错,基本上可以确认是 TiKV 节点有问题导致访问变慢:

Region is unavailable :访问的 Region 不可用,某个 Raft Group 不可用,如副本数目不足,出现在 TiKV 比较繁忙或者是 TiKV 节点停机的时候,请检查 TiKV Server 状态/监控/日志。

麻烦重点看下 TiKV 的报错,最好是给出一份完整的日志信息,另外 tikv_err.log 如果有配置,也给下日志信息。

cpu相关的监控图都标红了,我是把pd和tikv都布在一个虚拟机上的,每个虚拟机是8C,是不是CPU资源不足了?用w看倒是负载不高的。

只是显示问题,每个指标的值都很低,资源没有瓶颈。另外,如果是部署生产环境,建议严格按照官方要求的配置以及拓扑结构来部署,已有的硬件环境和部署方式仅作为功能测试。

现在集群访问还慢吗?麻烦提供下挂掉的 TiKV 节点日志,帮助分析节点挂掉以及访问变慢的原因。

改了下sync-log=false之后就不卡了。估计是tikv压力太大了。

:+1:,如果是生产环境还是建议按照官方提供的配置进行准备,测试的话目前还 OK。

感谢回复,如果问题已解决,请选择一个解决方案吧~

如有新的问题,请另开新帖提问哦~