【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】v7.1.1
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
【附件:截图/日志/监控】
在执行添加tiflash副本时,tiflash节点全部失联,然后重启tiflash节点,重启报上述错误
【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】v7.1.1
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
【附件:截图/日志/监控】
提示说,数据已经不一致了。
如果tikv没有出问题。这个应该是tiflash和tikv之间的不一致。
估计要去掉所有的tiflash副本,重新添加了。
添加副本的参数为了加快同步调整过?
没有做过啥操作,只执行了alter的sql,就是加了10几张表的副本,然后tiflash就死掉了,重启就起不来了
有点奇怪的。正常情况下这个副本同步是很慢的,负载也很低,不至于把几台机器都同步挂掉的。
正常情况下都是觉得,同步的时候tiflash没负载,恨不得把那几个控制参数调大好几倍加快同步的。
select * from INFORMATION_SCHEMA.TIFLASH_REPLICA where progress=1;
看看是不是有些表已经同步好了,至少你的现象更像是有些表已经同步到了tiflash,然后查询就进了tiflash。把tiflash搞挂了。
我们把tiflash缩容扩容了
但是缩容扩容之后,再重新添加tiflash副本又挂了
上面的sql查查看,应该是有些表同步完,立刻就用上了。慢查询也可以看看,是否有相关表的查询记录。
是有这种情况,但是加tiflash的时候不能查询吗,这种会导致tiflash重启失败是吗
还是看看这些sql的执行计划是否涉及tiflash。
并不是加tiflash的时候不能查。而是某些sql可能涉及的结果就是很大,很吃资源。你就是把副本都建立好了,这些sql上了tiflash该挂还是会挂。
我前面说的是一种可能性,现在还未必可以肯定是这个问题。
最后是不是还是要看要慢sql的执行计划,如果执行计划task这一列涉及tiflash,然后estRows这一列的数据又很大,那就差不多是这个问题了。
实际上去查了一下sql执行记录以及执行计划并没有走tiflash,数据量并不大,而且疑惑的地方也不是tiflash挂了,而是tiflash无法重启。
这张表什么样的?数据有什么特殊性么?
那就不是我推测的情况。
tiflash的不能重启,报错的原因是数据不一致。这个很可能和同步的时候挂了有关。
是这么一个关系。
安装tiflash后,有升级过么?
而且重新部署tiflash之后,再添加同一张的副本又会复现上述情况
是某张表加副本就会导致tiflash宕机,还是任何一张表都不能加副本,建个空表先加一下副本看下
实际操作是这样的,从v6.5.2升级到v7.1.1,升级完成后给表添加tifalsh副本,添加副本后tiflash就挂了,并且无法重启
某一张表