TiEM接管5.4集群报错

【 TiDB 使用环境`】测试环境
【 TiDB 版本】5.4
【遇到的问题】TiEM接管TiDB集群报错
【复现路径】

  1. 在TiEM集群中点 接管集群,并输入好对应配置项后提交
  2. 查看配置状态
  3. 得到如下报错信息

    【问题现象及影响】
    接管步骤到第4步报错,内容为:host not found xxxxx

有没有大佬遇到过这个报错,我开始怀疑是tiem和tidb中控机之间没有做互信造成的,但是做了互信还是这个报错,目前不知道到底错在哪了

接管集群前要先通过接管集群的页面下面的接管主机那里把集群的主机先接管进来

好嘞,我试一下,这个主机信息模板看起来有点复杂

配置完文件后出现如下报错,是不是我的文件配置有问题呢


应该是你多次导入了,麻烦切换到 资源管理 界面看看 74.67 机器是否已经存在了(包括失败的),如果是有台失败的 74.67 需要先删除一下再尝试导入。

确实是主机导入的问题,我删掉后直接导入主机,发现是这个报错。
看这个提示是不是要在我的tidb集群配置文件加上region信息才能在tiem上进行操作

这边有两个问题:

  1. RegionID 和 ZoneID 等信息要先在 UI 初始化产品的时候配置好(如果一开始选择“暂时跳过”,我们也会初始化默认值),具体可以通过点击 系统管理 - 开始向导 查看。然后在导入主机文件里填写的 RegionID 和 ZoneID 等信息要和已有的一致,这里主要可能的问题应该是 ZoneID 那边应该写 Zone1_1

主机模板和系统初始化默认 ZoneID 不一致问题我们会在 1.0.1 版本中修正,优化用户体验

  1. 接管集群的接管主机要走接管集群的页面,不要在资源管理的界面导入,上面这个 TXRQytmxTZ28QP8L8juM6Q 流程应该是导入主机的流程,不是接管主机的流程

我把TiEM控制台的ZoneID做了一下修改,把tidb配置文件做了labels,名称也做好了匹配,然后重装了tidb。然后用接管集群的流程操作,第一步的报错就没有出现了


现在报错出现在了加主机的第三步,提示是:
[30130]install filebeat on host failed precheck join em cluster em-test failed, exec: “tiup”: executable file not found in $PATH.

这是个已知问题,请参考这个解决https://asktug.com/t/topic/664449

我在中控机上执行了帖子中的命令(install -Dm755 /home/tidb/.tiup/bin/tiup /usr/local/bin),但是接管的时候还是一样的报错:joy:



因为我是用root执行的,我怕是权限的问题然后又把权限改给了tidb,结果还是不行。

然后我又在tidb用户下执行,结果还是不行

看来大家的环境还不太一样:joy:
能麻烦你切换到 tidb 账户下查看下 PATH 吗,执行 su - tidb 然后 echo $PATH,然后把上面最后的 /usr/local/bin 替换成其中一个 PATH (除了 /home/tidb/.tiup/bin )试试。
install -Dm755 /home/tidb/.tiup/bin/tiup <替换成另外的PATH>

还是不行,我试了其中两个路径都不行


换个方式查 PATH 的方式试试呢?:sweat_smile:

  1. systemctl status cluster-server-4101.service 找到 Main PID
  2. strings /proc/{Main PID}/environ 找里面的 PATH
    然后再 install -Dm755 /home/tidb/.tiup/bin/tiup <替换成另外的PATH>

果然还是不行:joy:,


kill -s 9 (main pid) 然后等它15秒自己重启试试?:joy:

昨晚按照你的提示操作了也不行
今早我想着和账号有没有关系,随后我把集群卸载了用root账号部署了tidb集群然后按照流程走了一遍,结果还是一样。
我这确实太奇怪了

最终沟通下来:“应该是所有操作都要在tiem中控机上,后面出错的修复操作我都跑到tidb的中控机操作了,所以一直不生效”
现在已经正常接管主机了。
后面的同学如果看这个帖子的话,10楼到16楼一直在排查同一个问题(也就是上面引号里的沟通结果),可能比较噪音,可以不看。

1 个赞

接管集群时需要填SSH的密码,都是免密钥登录的,不填又无法提交,求助有什么好的解决办法吗?

给部署账号(如:tidb)加个密码,这个和配置免密不冲突的

我们这也是有固定用户,配置的免密操作,不知道密码是啥,也不敢轻易修改这个用户的密码