TiDB 扩容新的 tiflash 节点启不起来。

【 TiDB 使用环境】生产环境
【 TiDB 版本】 7.5.1
【复现路径】原tidb集群只有1个tiflash节点,并且跟tikv节点共用;现在进行扩容,增加1个 tiflash节点。
【遇到的问题:问题现象及影响】 新加的TiFlash节点启动不来。
日志里有报错如下, 也可见附件日志。
TiFlash_ErrorLog.tar.gz (6.2 MB)

{\"created\":\"@1718431603.834348337\",\"description\":\"No address added out of total 1 resolved\",\"file\":\"/workspace/source/tiflash/contrib/grpc/src/core/ext/transport/chttp2/server/cht
tp2_server.cc\",\"file_line\":936,\"referenced_errors\":[{\"created\":\"@1718431603.834330084\",\"description\":\"Unable to configure socket\",\"fd\":38,\"file\":\"/workspace/source/tiflash/
contrib/grpc/src/core/lib/iomgr/tcp_server_utils_posix_common.cc\",\"file_line\":218,\"referenced_errors\":[{\"created\":\"@1718431603.834325197\",\"description\":\"Cannot assign requested a
ddress\",\"errno\":99,\"file\":\"/workspace/source/tiflash/contrib/grpc/src/core/lib/iomgr/tcp_server_utils_posix_common.cc\",\"file_line\":191,\"os_error\":\"Cannot assign requested address
\",\"syscall\":\"bind\"}]}]}"] [source=grpc] [thread_id=1]

[2024/06/15 14:16:58.229 +08:00] [ERROR] [<unknown>] ["DB::Exception: Exception happens when start grpc server, the flash.service_addr may be invalid, flash.service_addr is 100.112.1.220:23930"] [source=Application] [thread_id=1]

【资源配置】

【附件:截图/日志/监控】

看看端口23930有没有占用吧,或者防火墙有没有关闭。感觉是节点访问不通。
默认端口应该是3930

1 个赞

网络和端口问题的可能性比较大,可以先测试一下端口通不通

100.112.1.220这个机器上手工启动下tiflash看看能启动吗?

端口没有被占用,防火墙也关闭的。

ping 这个23930端口能ping通么?

在启动的时候,系统无法去访问tiflash节点 100.112.1.220:23930,无法正常创建链接。
考虑到已经有正常启动的tiflash节点,不太可能是集群自身软件或版本的问题。

可以尝试一下几个处理方向:

  1. 检查 flash.service_addr 的地址和端口是否配置正常、是否有冲突,避免错误配置。
  2. 检查网络连通性问题,是否被黑白名单设置、防火墙等策略给屏蔽了。
  3. 检查访问目标机器的用户密码是否过期或其他网络限制,导致无法访问。

看一下部署的具体流程新增节点好多步骤看一下是不是漏了,免密,端口占用检查一下

扩展部署前用命令检查下呗
tiup cluster check tidb_cluster scale-out.yaml --cluster --user tidb

tiup cluster display 集群名称,看看配置文件是否有问题

DB::Exception: Exception happens when start grpc server, the flash.service_addr may be invalid, flash.service_addr is 100.112.1.220:23930
看看配置或网络是否是通的

我刚搜索到其他也有人碰到一样的问题,目前也不知道 他解决了没有 。


防火墙没有开启、端口均没有被占用。

可以试试缩容掉它,再重新扩容看。如果还有问题,重新贴一下tiflash.log日志

缩容试过了,主要是状态’N/A’,scale-in 缩容后 tiup cluster edit-config 会显示 该tiflash节点“offline:true”, 数据清理 tiup cluster prune 后看 拓扑还是一样 状态为 ‘N/A’,edit-config 会显示 该tiflash节点“offline:true”。
image

今天又试着换端口 还还是一样。

检查 网络,文件权限,端口等。

权限、端口、防火墙等检查过,均无问题。
初步怀疑是跨网络段,网络地址转换可能有问题,在处理中,后续有结果会更新进来。

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。