tikv 节点网卡down之后,客户端卡死了,网卡up之后,store的状态也没恢复

  • 【TiDB 版本】:4.0.0-beta.2
  • 【问题描述】: 1、23\24\25三台服务器安装了tikv server,92\93\94部署的pd。 2、java client多线程写tikv 3、写的过程中24服务器网卡down了 4、之后java client卡住了 5、之后24的服务器的网卡重启了,但是很长时间24的状态还是down

{ “count”: 3, “stores”: [ { “store”: { “id”: 1, “address”: “10.0.2.224:20160”, “version”: “4.0.0-beta.2”, “status_address”: “10.0.2.224:20180”, “git_hash”: “7908f6e6699239fff23daa444961b5a47ff659da”, “start_timestamp”: 1585896830, “binary_path”: “/data1/deploy/bin/tikv-server”, “last_heartbeat”: 1586248533844007651, “state_name”: “Down” }, “status”: { “capacity”: “366.6GiB”, “available”: “327.7GiB”, “used_size”: “35.72GiB”, “leader_count”: 0, “leader_weight”: 1, “leader_score”: 0, “leader_size”: 0, “region_count”: 583, “region_weight”: 1, “region_score”: 55030, “region_size”: 55030, “start_ts”: “2020-04-03T14:53:50+08:00”, “last_heartbeat_ts”: “2020-04-07T16:35:33.844007651+08:00”, “uptime”: “97h41m43.844007651s” } }, { “store”: { “id”: 4, “address”: “10.0.2.223:20160”, “version”: “4.0.0-beta.2”, “status_address”: “10.0.2.223:20180”, “git_hash”: “7908f6e6699239fff23daa444961b5a47ff659da”, “start_timestamp”: 1585896830, “binary_path”: “/data1/deploy/bin/tikv-server”, “last_heartbeat”: 1586412250464305224, “state_name”: “Up” }, “status”: { “capacity”: “366.6GiB”, “available”: “317.3GiB”, “used_size”: “39.99GiB”, “leader_count”: 308, “leader_weight”: 1, “leader_score”: 308, “leader_size”: 28493, “region_count”: 583, “region_weight”: 1, “region_score”: 55030, “region_size”: 55030, “start_ts”: “2020-04-03T14:53:50+08:00”, “last_heartbeat_ts”: “2020-04-09T14:04:10.464305224+08:00”, “uptime”: “143h10m20.464305224s” } }, { “store”: { “id”: 5, “address”: “10.0.2.225:20160”, “version”: “4.0.0-beta.2”, “status_address”: “10.0.2.225:20180”, “git_hash”: “7908f6e6699239fff23daa444961b5a47ff659da”, “start_timestamp”: 1585896830, “binary_path”: “/data1/deploy/bin/tikv-server”, “last_heartbeat”: 1586251586966327528, “state_name”: “Down” }, “status”: { “capacity”: “366.6GiB”, “available”: “323.6GiB”, “used_size”: “39.89GiB”, “leader_count”: 275, “leader_weight”: 1, “leader_score”: 275, “leader_size”: 26537, “region_count”: 583, “region_weight”: 1, “region_score”: 55030, “region_size”: 55030, “start_ts”: “2020-04-03T14:53:50+08:00”, “last_heartbeat_ts”: “2020-04-07T17:26:26.966327528+08:00”, “uptime”: “98h32m36.966327528s” } } ] }

  1. 网卡down了,路由本身就有一个学习的过程, 应该要过一段时间,或者你把进程重启重新访问下
  2. 如果是正式环境,建议你还是尽量使用标准的部署模式,多谢。

多谢回复。再请教一下

  1. 网卡down了,路由本身就有一个学习的过程, 应该要过一段时间,或者你把进程重启重新访问下 这个过程有什么范围吗?或者有没有什么设置可以缩短这个过程
  2. 如果是正式环境,建议你还是尽量使用标准的部署模式,多谢。 是说我用的是beta版本吗?还是有什么其它设置
  1. 具体的麻烦咨询下网络工程师
  2. 4.0 rc 昨天发布了,可以使用rc版本,另外您是使用的裸 TiKV吗? 使用 TiUP 部署的 标准 PD, TiDB ,TIkV 模式,也方便扩展使用 TiFlash 。

对,我只需要tikv的功能,所以只是部署tikv进行测试。 我是按照tikv官方推荐的ansible的方式进行部署的 这个链接:https://tikv.org/docs/3.0/tasks/deploy/ansible/ 我的所有节点都是在局域网里面,网络本身的延时并不会很大. 刚刚我又重新部署了一个3.0(3.0.12)的版本测试了一下网络断链的情况,和之前测试的结果是一样的,客户端会卡死。 这个问题没有什么规避的方法吗? 另外,TiUP部署是怎么操作的?我好像没找到对应的方式,有没有一个链接什么的

您好:

   1. 网卡的故障,硬件的问题,首先应该考虑是否可以做bond,主备之类的,避免硬件单点问题。
   2. 可以参考文档 https://pingcap.com/docs-cn/stable/how-to/deploy/orchestrated/tiup/