升级到v4.0.12 运行一天集群奔溃 2个tikv失败, 之前运行1年都没问题

  1. 上面的t表 可以成功分析, 现在是部分表分析不了
  2. 4月13日 凌晨5点 升级到 v4.0.12 的

@yourchanges
是从 什么 TiDB 版本升级到 v4.0.12 的呀?

从v4.0.11 升级过来的
在之前一直是从老的升级的, 碰见过一个问题 生产环境 tiup 升级v4.0.2 到v4.0.4 tiflash 等待超时 timed out waiting for port 9000 to be started after 2m0s, 其他没问题

好的,我们已经内部复现了,在定位问题,非常感谢

加油!

看了下是有 PR 在修复了,但是目前还没有合并进去,具体情况可以跟进这个 issue: https://github.com/pingcap/tidb/pull/21299

好的, 但是这个只是关于tidb analyze panic 的问题, 那么 核心的两个tikv down掉 是确认和前面的有关么? 还是需要额外信息再观察?

tikv down 只是状态显示为 down 但是进程没有挂掉,这个可能是当时 tikv 心跳上报有问题,但是不确定是不是跟 tidb analyze panic 有关系,所以是希望 analyze panic 的问题修复之后,再观察看下有没有相同的情况出现。

进程是没有挂掉, 但是心跳都相互不通了, 整个集群都不工作了, 上层tidb也收到tikv超时了

这个问题目前还是每次备份的时候都会出现 tikv down 么?非备份时间段会不会出现这种情况?

目前备份关了 不敢备份, 裸奔中, 非备份时间暂时没出现异常, 只是panic 报警一直在发

关注下这个 PR.:eyes:

昨天凌晨又备份了一次, tikv 又disconnect了, 进程还在, 后面 手动备份一个 不会, 循环顺序批量备份 好像容易触发.

然后新版本什么时候能好?

下一个版本发版时间还没确定,如果确定了的话,会更新在这的:https://github.com/pingcap/tidb/milestones

麻烦传下3台tikv的log

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。