tikv节点离线

Hacker_UgvRw9pn · 2020 年4 月 3 日 08:31

为提高效率，提问时请提供以下信息，问题描述清晰可优先响应。

【TiDB 版本】：3.0.6
【问题描述】：tikv节点离线，pd-ctl 提示Failed to get store: Get http://127.0.0.1:2379/pd/api/v1/stores: dial tcp 127.0.0.1:2379: connect: connection refused，pd.log报[client.go:301] ["[pd] failed updateLeader"] [error=“failed to get leader from xxx，tikv.log 提示 [2020/04/02 19:31:33.539 +08:00] [ERROR] [util.rs:287] [“request failed, retry”] [err=“Other(SendError(”…”))"] [2020/04/02 19:32:10.918 +08:00] [ERROR] [kv.rs:731] [“KvService::batch_raft send response fail”] [err=RemoteStopped]

若提问为性能优化、故障排查类问题，请下载脚本运行。终端输出的打印结果，请务必全选并复制粘贴上传。

来了老弟 · 2020 年4 月 3 日 08:51

您好，

检查各个节点的 pd 的健康状态： ./bin/pd-ctl -u http://pdhost:pdport health
提供下 pd 的完整日志。
提供下线操作流程
下线 tikv 日志

Hacker_UgvRw9pn · 2020 年4 月 3 日 09:11

[
{
“name”: “pd_KF1-PD-136”,
“member_id”: 280817816603571806,
“client_urls”: [
“http://192.168.1.136:2379”
],
“health”: true
}
]
2.pd完整日志pd.log (31.7 KB)
3.没有下线，是自动离线了，页面上看不到其中的tikv节点，并且总存储也减少
4.tikv.log (3.4 MB)
5.脚本执行结果.txt (3.3 KB)

来了老弟 · 2020 年4 月 3 日 09:21

您好，

执行下：
使用物理 IP 访问，使用 127.0.0.1 会出现异常

./bin/pd-ctl -u http://172.16.51.169:22379 store

Hacker_UgvRw9pn · 2020 年4 月 3 日 09:23

{ “count”: 3, “stores”: [ { “store”: { “id”: 1, “address”: “192.168.1.138:20160”, “version”: “3.0.5”, “state_name”: “Down” }, “status”: { “leader_weight”: 1, “region_weight”: 1, “start_ts”: “1970-01-01T08:00:00+08:00” } }, { “store”: { “id”: 2, “address”: “192.168.1.137:20160”, “version”: “3.0.5”, “state_name”: “Up” }, “status”: { “capacity”: “4.96TiB”, “available”: “4.677TiB”, “leader_count”: 7168, “leader_weight”: 1, “leader_score”: 591474, “leader_size”: 591474, “region_count”: 14304, “region_weight”: 1, “region_score”: 1183477, “region_size”: 1183477, “start_ts”: “2020-04-03T03:59:24+08:00”, “last_heartbeat_ts”: “2020-04-03T17:21:14.391892834+08:00”, “uptime”: “13h21m50.391892834s” } }, { “store”: { “id”: 7, “address”: “192.168.1.139:20160”, “version”: “3.0.5”, “state_name”: “Up” }, “status”: { “capacity”: “4.96TiB”, “available”: “4.676TiB”, “leader_count”: 7136, “leader_weight”: 1, “leader_score”: 592003, “leader_size”: 592003, “region_count”: 14304, “region_weight”: 1, “region_score”: 1183477, “region_size”: 1183477, “start_ts”: “2020-04-03T03:58:50+08:00”, “last_heartbeat_ts”: “2020-04-03T17:21:08.439567229+08:00”, “uptime”: “13h22m18.439567229s” } } ] }

来了老弟 · 2020 年4 月 3 日 09:40

您好，

尝试重新启动 tikv 是否成功？不成功可以将日志上传下。
可以提供下 down tikv 对应时间点的日志吗？

Hacker_UgvRw9pn · 2020 年4 月 3 日 10:21

1.重启可以成功，但是已经离线好几次了，一直找不到原因
2.很多日志不确定是哪一个，之前上传的是tikv.log

来了老弟 · 2020 年4 月 3 日 10:23

您好，

本次重启之后是否继续出现 down 的现象？
可以选择最新一次 tikv down 的 tikv 日志上传上来，也可以继续观察下~

Hacker_UgvRw9pn · 2020 年4 月 3 日 10:37

1.重启后不会马上down
2.这是所有的tikv日志
tikv.tar.gz (561.8 KB)

来了老弟 · 2020 年4 月 3 日 14:03

好的，我们看下

yilong · 2020 年4 月 4 日 09:06

您好：

从日志看重启这个tikv是很久之前的事情了，在19年11月18号，从上面的帖子看，你说你重启过tikv，什么时候重启过？

image1147×137 65.1 KB
从tikv日志看当前有error日志，store显示也是down，能否先启动138的tikv，在138安装目录/scripts/下执行./stop_tikv.sh,再执行/start_tikv.sh，即可以重启tikv实例。

image2363×273 196 KB
重启可以成功，但是已经离线好几次了 ----> 是这一个tikv离线吗？从日志看没有启动记录，您是从哪里觉得离线了好几次？
如果可以成功启动，等到下次出问题时，请反馈出问题时间点的日志；如果无法启动恢复tikv，请反馈报错信息，多谢。

Hacker_UgvRw9pn · 2020 年4 月 7 日 03:47

1.上次重启也是因为138离线了才重启的，最近重启就是本次离线，重启过后截止目前还没出现问题

2.我在tidb节点用 ansible-playbook start.yml -l 192.168.1.138 命令重启的，这样是否有问题?

3.是只有138这一个离线，我从监控页面看离线的，并且 ./pd-ctl -u http://192.168.1.136:2379 store 也提示138down

yilong · 2020 年4 月 7 日 03:54

如果您重启成功了，这里查看应该是up，请使用store确认下
这个命令耶尔可以，如果如果tikv里配置的是别名，需要写别名，比如tikv1
如果您重启了，应该是有Welcome的信息，所以要么是日志给的不是所有节点的，没有包含，要么是重启前的日志。
这个问题，等您下次出问题，确认好离线的时间点，我们再来根据日志查看吧。多谢