tikv节点离线

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:3.0.6
  • 【问题描述】:tikv节点离线,pd-ctl 提示Failed to get store: Get http://127.0.0.1:2379/pd/api/v1/stores: dial tcp 127.0.0.1:2379: connect: connection refused,pd.log报[client.go:301] ["[pd] failed updateLeader"] [error=“failed to get leader from xxx,tikv.log 提示 [2020/04/02 19:31:33.539 +08:00] [ERROR] [util.rs:287] [“request failed, retry”] [err=“Other(SendError(”…”))"] [2020/04/02 19:32:10.918 +08:00] [ERROR] [kv.rs:731] [“KvService::batch_raft send response fail”] [err=RemoteStopped]

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

您好,

  1. 检查各个节点的 pd 的健康状态: ./bin/pd-ctl -u http://pdhost:pdport health

  2. 提供下 pd 的完整日志。

  3. 提供下线操作流程

  4. 下线 tikv 日志

  1. [ { “name”: “pd_KF1-PD-136”, “member_id”: 280817816603571806, “client_urls”: [ “http://192.168.1.136:2379” ], “health”: true } ] 2.pd完整日志pd.log (31.7 KB) 3.没有下线,是自动离线了,页面上看不到其中的tikv节点,并且总存储也减少 4.tikv.log (3.4 MB) 5.脚本执行结果.txt (3.3 KB)

您好,

执行下: 使用物理 IP 访问,使用 127.0.0.1 会出现异常

./bin/pd-ctl -u http://172.16.51.169:22379 store

{ “count”: 3, “stores”: [ { “store”: { “id”: 1, “address”: “192.168.1.138:20160”, “version”: “3.0.5”, “state_name”: “Down” }, “status”: { “leader_weight”: 1, “region_weight”: 1, “start_ts”: “1970-01-01T08:00:00+08:00” } }, { “store”: { “id”: 2, “address”: “192.168.1.137:20160”, “version”: “3.0.5”, “state_name”: “Up” }, “status”: { “capacity”: “4.96TiB”, “available”: “4.677TiB”, “leader_count”: 7168, “leader_weight”: 1, “leader_score”: 591474, “leader_size”: 591474, “region_count”: 14304, “region_weight”: 1, “region_score”: 1183477, “region_size”: 1183477, “start_ts”: “2020-04-03T03:59:24+08:00”, “last_heartbeat_ts”: “2020-04-03T17:21:14.391892834+08:00”, “uptime”: “13h21m50.391892834s” } }, { “store”: { “id”: 7, “address”: “192.168.1.139:20160”, “version”: “3.0.5”, “state_name”: “Up” }, “status”: { “capacity”: “4.96TiB”, “available”: “4.676TiB”, “leader_count”: 7136, “leader_weight”: 1, “leader_score”: 592003, “leader_size”: 592003, “region_count”: 14304, “region_weight”: 1, “region_score”: 1183477, “region_size”: 1183477, “start_ts”: “2020-04-03T03:58:50+08:00”, “last_heartbeat_ts”: “2020-04-03T17:21:08.439567229+08:00”, “uptime”: “13h22m18.439567229s” } } ] }

您好,

  1. 尝试重新启动 tikv 是否成功?不成功可以将日志上传下。
  2. 可以提供下 down tikv 对应时间点的日志吗?

1.重启可以成功,但是已经离线好几次了,一直找不到原因 2.很多日志不确定是哪一个,之前上传的是tikv.log

您好,

  1. 本次重启之后是否继续出现 down 的现象?
  2. 可以选择最新一次 tikv down 的 tikv 日志上传上来,也可以继续观察下~

1.重启后不会马上down 2.这是所有的tikv日志 tikv.tar.gz (561.8 KB)

好的,我们看下

您好:

  1. 从日志看重启这个tikv是很久之前的事情了,在19年11月18号,从上面的帖子看,你说你重启过tikv,什么时候重启过?

  2. 从tikv日志看当前有error日志,store显示也是down,能否先启动138的tikv,在138安装目录/scripts/下执行./stop_tikv.sh,再执行/start_tikv.sh,即可以重启tikv实例。

  3. 重启可以成功,但是已经离线好几次了 ----> 是这一个tikv离线吗? 从日志看没有启动记录,您是从哪里觉得离线了好几次?

  4. 如果可以成功启动,等到下次出问题时,请反馈出问题时间点的日志;如果无法启动恢复tikv,请反馈报错信息,多谢。

1.上次重启也是因为138离线了才重启的,最近重启就是本次离线,重启过后截止目前还没出现问题

2.我在tidb节点用 ansible-playbook start.yml -l 192.168.1.138 命令重启的,这样是否有问题?

3.是只有138这一个离线,我从监控页面看离线的,并且 ./pd-ctl -u http://192.168.1.136:2379 store 也提示138down

  1. 如果您重启成功了,这里查看应该是up,请使用store确认下
  2. 这个命令耶尔可以,如果如果tikv里配置的是别名,需要写别名,比如tikv1
  3. 如果您重启了,应该是有Welcome的信息,所以要么是日志给的不是所有节点的,没有包含,要么是重启前的日志。
  4. 这个问题,等您下次出问题,确认好离线的时间点,我们再来根据日志查看吧。多谢