tiflash副本不定期不可用,导致sql任务执行失败

【 TiDB 使用环境】生产环境
【 TiDB 版本】V7.5.0
【复现路径】执行sql时出现异常,提示mpp问题,查看tiflash副本情况,发现progress为0.5,重建tiflash后查询sql正常
【遇到的问题:问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】

有几台tiflash?有他们的监控图嘛?

看上去像是2个tiflash节点挂了一个。

建议升级下数据库最新的版本7.5.4或等等7.5.5

有两个tiflash,但是看dashboard,tiflash没有重启过

1 个赞

:joy:7.5.1这方面是有啥bug吗

7.5.0

检查tiflash状态没问题的话,.0的版本 bug概率还是比较大的

看看网络流量图,也可能是mpp计算把网络带宽占满了。uptime没变,但是当时可能确实已经连不上其中某一台了。

而且我看你的异常,当时应该就正好是在进行mpp计算。

1 个赞

那假设是异常了,后续会自己恢复吗,不能重启一次副本都会用不了吧

你这个uptime都没显示重启的情况,我认为网络恢复了,这个副本数量就会自己变成正常的。
就算重启了,tikv到tiflash的复制也是raft协议保证的。不应该会出现副本用不了的情况。

能复现的话估计是遇到bug了。感觉是bug

遇到挺多次了

所以网络带宽到底高不高?要是不高,bug的可能性就很高了。

升级下试试?估计是旧bug