Store down了怎么处理

huangbenben · 2020 年3 月 20 日 05:24

为提高效率，提问时请提供以下信息，问题描述清晰可优先响应。

【TiDB 版本】：4.0.0-Beta1
【问题描述】：在监控中发现一个store down了，同时访问TIdb非常慢，这个要怎么处理呢 |1|172.16.8.40:20160|0|Up| |4|172.16.8.38:20160|0|Down| |5|172.16.8.39:20160|0|Up|

若提问为性能优化、故障排查类问题，请下载脚本运行。终端输出的打印结果，请务必全选并复制粘贴上传。

不懂就问 · 2020 年3 月 20 日 07:16

看给到的信息，是有三个 TiKV 节点。问题的定位还需要更多信息

1）提供下挂掉的 TiKV 节点的日志信息

2）TiDB 访问慢的问题，确认下有几个 tidb-server ？是写入慢还是读取慢？另外麻烦提供下 tidb-server 节点的日志信息。

huangbenben · 2020 年3 月 20 日 07:37

部分TIKV的错误日志 [2020/03/20 15:29:38.833 +08:00] [ERROR] [transport.rs:163] [“send raft msg err”] [err=“Other(”[src/server/raft_client.rs:214]: RaftClient send fail")"] [2020/03/20 15:29:38.836 +08:00] [ERROR] [transport.rs:163] [“send raft msg err”] [err=“Other(”[src/server/raft_client.rs:214]: RaftClient send fail")"] [2020/03/20 15:29:38.837 +08:00] [ERROR] [transport.rs:163] [“send raft msg err”] [err=“Other(”[src/server/raft_client.rs:214]: RaftClient send fail")"]
tidb的日志 [2020/03/20 15:24:24.895 +08:00] [ERROR] [domain.go:473] [“reload schema in loop failed”] [error="[tikv:9002]TiKV server timeout"] [2020/03/20 15:24:47.142 +08:00] [ERROR] [domain.go:473] [“reload schema in loop failed”] [error="[tikv:9005]Region is unavailable"] [2020/03/20 15:26:39.970 +08:00] [ERROR] [domain.go:473] [“reload schema in loop failed”] [error="[tikv:9005]Region is unavailable"] [2020/03/20 15:27:24.933 +08:00] [ERROR] [domain.go:473] [“reload schema in loop failed”] [error="[tikv:9005]Region is unavailable"] [2020/03/20 15:29:36.685 +08:00] [ERROR] [domain.go:865] [“update bindinfo failed”] [error="[tikv:9005]Region is unavailable"] [2020/03/20 15:36:24.697 +08:00] [ERROR] [domain.go:473] [“reload schema in loop failed”] [error="[tikv:9005]Region is unavailable"]

不懂就问 · 2020 年3 月 20 日 07:49

根据 TiDB 的报错，基本上可以确认是 TiKV 节点有问题导致访问变慢：

Region is unavailable ：访问的 Region 不可用，某个 Raft Group 不可用，如副本数目不足，出现在 TiKV 比较繁忙或者是 TiKV 节点停机的时候，请检查 TiKV Server 状态/监控/日志。

麻烦重点看下 TiKV 的报错，最好是给出一份完整的日志信息，另外 tikv_err.log 如果有配置，也给下日志信息。

huangbenben · 2020 年3 月 20 日 09:36

huangbenben · 2020 年3 月 20 日 09:37

cpu相关的监控图都标红了，我是把pd和tikv都布在一个虚拟机上的，每个虚拟机是8C,是不是CPU资源不足了？用w看倒是负载不高的。

不懂就问 · 2020 年3 月 20 日 12:21

只是显示问题，每个指标的值都很低，资源没有瓶颈。另外，如果是部署生产环境，建议严格按照官方要求的配置以及拓扑结构来部署，已有的硬件环境和部署方式仅作为功能测试。

不懂就问 · 2020 年3 月 23 日 12:23

现在集群访问还慢吗？麻烦提供下挂掉的 TiKV 节点日志，帮助分析节点挂掉以及访问变慢的原因。

huangbenben · 2020 年3 月 24 日 09:13

改了下sync-log=false之后就不卡了。估计是tikv压力太大了。

来了老弟 · 2020 年3 月 25 日 03:45

，如果是生产环境还是建议按照官方提供的配置进行准备，测试的话目前还 OK。

感谢回复，如果问题已解决，请选择一个解决方案吧～

如有新的问题，请另开新帖提问哦～

system · 2022 年10 月 31 日 19:06

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。