tidb集群版本从v5.4.0升级到v6.5.0,出现tiflash组件无法正常工作的问题

【 TiDB 使用环境】生产环境
【 TiDB 版本】从v5.4.0升级到v6.5.0版本,目前,tidb集群中的所有组件版本均为v6.5.0
【复现路径】tidb集群版本从v5.4.0升级到v6.5.0,出现tiflash组件无法正常工作的问题
【遇到的问题:问题现象及影响】

tiup cluster display my_cluster_name

然后,按照官方的文档尝试对tiflash组件进行缩容和扩容,再次,查询状态正常。
但是,只要加载几张小表到tiflash里后,就会出现disconnected的问题。

同时,登录到远程的tiflash服务器,在部署路径下,产生大量的core文件,如下:

每个core文件大小1G,有70G+.

查看错误日志,有如下内容报错:

【资源配置】
【附件:截图/日志/监控】

tiflash_error.log.tar.gz (61.5 KB)

以上为tiflash的报错日志。

删除重建就好了

非常神奇之处是,我们的2套生产环境集群,版本都是v5.4.0版本,升级到v6.5.0版本,一套中的tiflash正常,另一套tiflash就不正常。

报错的都是 physical_table_id=1130 的表,这个表先关掉TIFLASH REPLICA再开启呢?


已经把tiflash中所有的表的的副本数设置为0重启tiflash仍然,报同样的错误,并且,产生大量的core文件。

SELECT a.TABLE_SCHEMA,a.TABLE_NAME,a.tidb_table_id FROM INFORMATION_SCHEMA.tables a WHERE tidb_table_id=‘1130’;
看看这个表时什么表

大概找到问题的原因了,我今天再验证一下,如果是这个原因引起的。到时候,我会把验证结果发布上来。

啥原因

avx2指令的问题吗?

验证猜想失败,只能把从库集群销毁,重新做整个从库集群:

  1. 采取关闭主库集群的ticdc到从库集群的同步任务
  2. 销毁从库集群
  3. 备份导出主库集群数据
  4. 导入从库集群
  5. 从库集群加载tiflash

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。