tidb添加索引报错,无法添加索引bug

【 TiDB 使用环境】生产环境
【 TiDB 版本】7.1.5
【复现路径】添加索引
【遇到的问题:问题现象及影响】
版本7.1.5
问题描述:添加索引卡住不动,报错退出
错误信息:
pd address (10.147.155.204:2379,10.147.155.206:2379,10.147.155.208:2379) not available, error is Get “http://10.147.155.208:2379/pd/api/v1/config/cluster-version”: dial tcp 10.147.155.208:2379: connect: connection refused, please check network

问题:
此报错所有ip均曾经为集群的pd节点,后期通过tiup方式将pd节点迁移到其他地址,
添加索引tidb错误日志:
[ERROR] [backend_mgr.go:96] [“[ddl-ingest] build ingest backend failed”] [“job ID”=3614] [error=“[Lightning:PD:ErrUpdatePD]pd address (10.147.155.204:2379,10.147.155.206:2379,10.147.155.208:2379) not available, error is Get "http://10.147.155.208:2379/pd/api/v1/config/cluster-version\”: dial tcp 10.147.155.208:2379: connect: connection refused, please check network"]

【资源配置】



切换了多次DDL owner还是不行!

tidb 节点是否用重启过呢? 感觉是 tidb 拿不到正确的 pd 地址。检查下 tidb 启动脚本里的 pd 地址是否正确吧

你好,tidb各节点已经确认了,run_tidb.sh脚本pd参数没问题,不知道tidb哪里还保存有旧pd的信息!

1 个赞

尝试重启下 tidb ?

1 个赞

仔细想想最近做过什么操作?如果是pd迁移造成的,那应该迁移后立刻会有这个问题。
从你上面的描述看,我感觉好像迁了有一段时间了。不知道真实情况是否如此。

还有就是tidb中的ddl owner的日志,如果有的话,提供一份看看。

现在这个情况如果要硬搞,我能想到的也就是:

1,整个集群重启一下。
2,尝试把这个tidb缩容掉,再扩容出来。反正tidb是无状态的,如果负载不高,这个过程会很快,这么操作一下,可能就不会认错现在pd的地址了。

1 个赞

重启后,重新开启加索引加速功能,恢复了,感谢大佬,如果不重新开启加速参数,会出现另外个问题
[“[ddl] flush error”] [error=“[ddl:8247]Ingest failed: ingest engine not found”]

2 个赞