tikv的store显示down

yilong · 2020 年6 月 2 日 13:54

lk463419442 · 2020 年6 月 4 日 03:14

0604.txt (8.8 KB)
看了下没有占用

yilong · 2020 年6 月 4 日 06:13

[root@host-91 ~]# lsof | grep /data/tidb/deploy/data_1/data lsof: no pwd entry for UID 100

请检查下 ls -ld /data/tidb/deploy/data_1/data ，查看属主是不是有变化，你是否之前删除过所属用户比如tidb，之后重建了用户
当前无法启动的集群是否有数据丢失？能否尝试缩容这些集群重新导入数据。之后用统一的ansible 或者 tiup 管理。

lk463419442 · 2020 年6 月 4 日 06:27

怎么去缩容呢，是把异常的tikv节点在配置文件中去掉，然后重新启动吗

yilong · 2020 年6 月 4 日 07:34

lk463419442 · 2020 年6 月 4 日 08:40

配置文件是这6个tikv

yilong · 2020 年6 月 4 日 09:46

在每个服务器ps -ef 检查下 tikv-server 的进程，确认是不是这5个都启动成功了。再手工启动下90的20161，看看能否启动，多谢。

“id”: 1056, “address”: “10.53.156.91:20161”, “labels”: [ { “key”: “host”, “value”: “tikv3_0” } ], “version”: “2.1.13”, “state_name”: “Up”

“store”: { “id”: 1058, “address”: “10.53.156.89:20162”, “labels”: [ { “key”: “host”, “value”: “tikv1_1” } ], “version”: “2.1.13”, “state_name”: “Up”

“store”: { “id”: 1060, “address”: “10.53.156.91:20162”, “labels”: [ { “key”: “host”, “value”: “tikv3_1” } ], “version”: “2.1.13”, “state_name”: “Up”

“store”: { “id”: 1001, “address”: “10.53.156.89:20161”, “labels”: [ { “key”: “host”, “value”: “tikv1_0” } ], “version”: “2.1.13”, “state_name”: “Up”

“store”: { “id”: 1059, “address”: “10.53.156.90:20162”, “labels”: [ { “key”: “host”, “value”: “tikv2_1” } ], “version”: “2.1.13”, “state_name”: “Up”

lk463419442 · 2020 年6 月 5 日 01:28

由于后面通过ansible的方式重启的，现在store只有 10.53.156.90:20162 10.53.156.89:20162 10.53.156.90:20161 这3个节点是up的

yilong · 2020 年6 月 5 日 01:41

（1） ps -ef | grep tikv-server 反馈结果

（2）在89的安装目录，找到20161的目录/scripts/start_tikv.sh 文件。执行： ./start_tikv.sh 看下能否启动成功，

（3）如果启动失败，反馈20161的tikv.log 和 err日志。

lk463419442 · 2020 年6 月 5 日 02:03

0605.txt (6.2 KB)

start_tikv启动的是20160的端口

yilong · 2020 年6 月 5 日 06:43

那你检查下，你之前是怎么修改的呢？为什么ansible里的脚本都不正确，多谢。
比如说如果这里应该是 20161的service，在 /etc/system/systemd/目录下有没有 20161.service文件，看下20161.service文件是什么内容，逐个对比，如果都有，并且每个脚本里的ip 端口都正确，可以尝试修改为20161,试试能否启动。

lk463419442 · 2020 年6 月 5 日 07:24

89 20161启动成功了，是因为日志文件的属主不对，检查了91的目录属主是没问题的。现在是89，904个tikv节点都up了。20160是因为初次部署的时候默认是这个端口和启动方式

yilong · 2020 年6 月 5 日 08:32

lk463419442 · 2020 年6 月 5 日 09:09

91启动不了，还是提示那个目录已被使用的报错

yilong · 2020 年6 月 5 日 09:35

lk463419442 · 2020 年6 月 5 日 09:56

重启后还是一样的报错

GangShen · 2020 年6 月 6 日 05:18

可以考虑将这个 tikv 节点通过缩容并扩容的方式，重新上线

lk463419442 · 2020 年6 月 8 日 00:55

好的，谢谢，我试试

yilong · 2020 年6 月 8 日 02:35

请问缩容了吗？如果还没有，麻烦再重启下tikv，我们再看看是否报错还是一样。多谢。

lk463419442 · 2020 年6 月 8 日 02:42

还没缩容，你说的是通过ansible重启还是 systemctl重启呢