近期某用户集群故障说明

8 月 24 日早,
接到某用户的核心业务集群出现紧急故障,
PingCAP 团队接通知后第一时间介入,
在约半小时后帮助业务恢复,
之后持续推进问题根因彻查、测试模拟的过程。
遇到问题的版本是 4.0.14,
经分析确认这是一个极端热点流量突发导致的在线服务问题。
本次故障集群已上线 11 个月,
用户其它主要集群也采用相似的配置并支撑着更极端的全局流量,
本次故障现象系初次发现。
目前判断绝大部分 TiDB 用户不会出现同样的问题,请大家不要担心。
目前事故原因正在和用户技术团队共同分析和 fix 过程中,
详细故障报告后续给出。
谢谢广大 TiDB 的用户对我们的关心,
在社区的积极参与下,
我们的支持和产品体系一直在提升为大家服务的能力,
和大家在一起。

5赞

知乎?

妥~

每次极端的问题出现,都代表功能会更加完善

我们用的是 v4.0.9 应该也有相同的bug

我那天瞎猜是不是逼乎,居然真的是。。。

修复已提交到 master 分支,并且 cherry-pick 到 4.0 和 5.0 的 release 分支待下次发版就会带上。5.1 和 5.2 的 cherry-pick 工作会在近期完成。

1赞