【 TiDB 使用环境`】测试环境
【 TiDB 版本】5.4
【遇到的问题】TiEM接管TiDB集群报错
【复现路径】
- 在TiEM集群中点 接管集群,并输入好对应配置项后提交
- 查看配置状态
- 得到如下报错信息
【问题现象及影响】
接管步骤到第4步报错,内容为:host not found xxxxx
有没有大佬遇到过这个报错,我开始怀疑是tiem和tidb中控机之间没有做互信造成的,但是做了互信还是这个报错,目前不知道到底错在哪了
【 TiDB 使用环境`】测试环境
【 TiDB 版本】5.4
【遇到的问题】TiEM接管TiDB集群报错
【复现路径】
有没有大佬遇到过这个报错,我开始怀疑是tiem和tidb中控机之间没有做互信造成的,但是做了互信还是这个报错,目前不知道到底错在哪了
接管集群前要先通过接管集群的页面下面的接管主机那里把集群的主机先接管进来
好嘞,我试一下,这个主机信息模板看起来有点复杂
应该是你多次导入了,麻烦切换到 资源管理 界面看看 74.67 机器是否已经存在了(包括失败的),如果是有台失败的 74.67 需要先删除一下再尝试导入。
这边有两个问题:
主机模板和系统初始化默认 ZoneID 不一致问题我们会在 1.0.1 版本中修正,优化用户体验
我把TiEM控制台的ZoneID做了一下修改,把tidb配置文件做了labels,名称也做好了匹配,然后重装了tidb。然后用接管集群的流程操作,第一步的报错就没有出现了
现在报错出现在了加主机的第三步,提示是:
[30130]install filebeat on host failed precheck join em cluster em-test failed, exec: “tiup”: executable file not found in $PATH.
这是个已知问题,请参考这个解决https://asktug.com/t/topic/664449
我在中控机上执行了帖子中的命令(install -Dm755 /home/tidb/.tiup/bin/tiup /usr/local/bin),但是接管的时候还是一样的报错:joy:
看来大家的环境还不太一样
能麻烦你切换到 tidb 账户下查看下 PATH 吗,执行 su - tidb 然后 echo $PATH,然后把上面最后的 /usr/local/bin 替换成其中一个 PATH (除了 /home/tidb/.tiup/bin )试试。
install -Dm755 /home/tidb/.tiup/bin/tiup <替换成另外的PATH>
换个方式查 PATH 的方式试试呢?
kill -s 9 (main pid) 然后等它15秒自己重启试试?
昨晚按照你的提示操作了也不行
今早我想着和账号有没有关系,随后我把集群卸载了用root账号部署了tidb集群然后按照流程走了一遍,结果还是一样。
我这确实太奇怪了
最终沟通下来:“应该是所有操作都要在tiem中控机上,后面出错的修复操作我都跑到tidb的中控机操作了,所以一直不生效”
现在已经正常接管主机了。
后面的同学如果看这个帖子的话,10楼到16楼一直在排查同一个问题(也就是上面引号里的沟通结果),可能比较噪音,可以不看。
接管集群时需要填SSH的密码,都是免密钥登录的,不填又无法提交,求助有什么好的解决办法吗?
给部署账号(如:tidb)加个密码,这个和配置免密不冲突的
我们这也是有固定用户,配置的免密操作,不知道密码是啥,也不敢轻易修改这个用户的密码