大表变更,tiflash报错

【 TiDB 使用环境】
【概述】:场景 + 问题概述
centos7.5 + tidbv4.0.13
【背景】:做过哪些操作
3000万条数据的表,主键变更,去掉auto_increment属性,集群报了很多错,操作如下:


【现象】:业务和数据库现象
tiflash一个节点挂了

生产tikv触发了很多告警,比如:
TiKV_Follower远远落后于Leader
TiKV_无法连接远端的TiKV
TiDB访问TiKV时发生了Region错误,10分钟内大于6000

【问题】:当前遇到的问题
tiflash挂了
集群一直告警

【业务影响】:
目前正常,但是一直告警,tiflash有个两个服务器,一个正常,另一个一直重启
【TiDB 版本】:
v4.0.13
【附件】:

1 Like
  1. 发一下 TiDB 集群拓扑,tiup cluster display ;
  2. TiFlash 现在挂掉以后是否重启,另外补充一下截图的完整日志。可以通过 tiup diag 抓取一下日志和监控谢谢。【SOP 系列 22】TiDB 集群诊断信息收集 Diag Collector 使用手册 v0.4.0
1 Like

我们集群版本是4.0.13的,tiup是1.4.4的,没有diag,tiup install diag直接报The component diag not found (may be deleted from repository); skipped
请问tiup升级有什么风险么

1 Like

TIUP 是集群管理工具,升级 TiUP 对在线集群没有影响的

我们这准备做tiflash缩容-扩容了,tiup先不动了,谢谢您的回答,后期会升级整个集群的

1 Like

相当于重置 TiFlash 把?

嗯,是的

1 Like

扩容是相当于重置?

缩容-扩容,重做

重做以后恢复了嘛 ?

没有,一直是offline状态,扩容后,tiflash日志报错,不知道是不是磁盘有问题,我们是普通的固态盘,不是nvme的

已经重建成功了,节点下线后,重新部署得使用新的端口,否则就会报上面的错,谢谢了

有两种情况:

  1. 对应的端口的服务没有真的 kill 干净,还在 listen 状态;
  2. 可以看一下 service 得 journal log 看看具体报错是什么,从日志截图看只能说明 TCP 就失败了,可能是是端口冲突。

好的 ,我查下

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。