【TiDBer 唠嗑茶话会 60 】研发写了个 SQL 查询 OLAP 库,放到首页上了,因为早高峰登录的并发把 OLAP 库压死了,怎么措辞给领导汇报这件事?

本期唠嗑茶话会想让各位 TiDBer 们发挥一下语言的艺术,来聊聊职场措辞。如果研发写了一个 SQL 查询 OLAP 库,并且放到首页上了。早高峰登陆的并发把 OLAP 库压死了,该怎么措辞给领导汇报这件事情呐?

本期话题:

研发写了个 sql 查询 olap 库,放到首页上了,因为早高峰登录的并发把 olap 库压死了,怎么措辞给领导汇报这件事?

本期奖励:

参与奖:

参与话题讨论即可获得 30 积分~

活动时间:

2023.2.24-2023.3.3

1 个赞

为了验证OLAP数据库并发性能,做了一个简单验证。
实验证明OLAP数据库并发度支持有限,后续需要有并发度较高的需求,需要谨慎使用,严格控制并发。

领导:
    随着我们业务的不断发展,用户的不断增长,最近软件已经做出相应调整并上线试用,但在早高峰时期,
数据库不能承受访问压力。基于此次事件,我们可以得出目前硬件已不能给用户提供完美的体验,急需升级
硬件。
    经过多方征求意见,最终形成建议方案选型分布式数据库TiDB。原因如下:
1、TiDB 是 PingCAP 公司自主设计、研发的开源分布式关系型数据库,是一款同时支持在线事务处理与在
线分析处理的融合型分布式数据库产品。同时,也是一款国产数据库,长期排名第一。
2、在高峰期支持横向扩展,支撑业务,低峰期支持缩容减配,节省开支。
3、能够同时告诉稳定的支持OLAP和OLTP业务,为后续业务升级做准备。
4、兼容 MySQL 5.7 协议和 MySQL 生态等重要特性,支持在本地和云上部署。
8 个赞

领导有个好消息有个坏消息,好消息是网站流量上来了,坏消息是流量上来后库没扛住!现在大家都在优化!

拉上开发去诚恳地开个道歉会,同事们又有机会喝奶茶了

1 个赞

领导 我们的数据库不能在高并发的场景写olap

  1. 首先恢复服务能力

  2. 澄清问题,找出相应的日志和配置信息

  3. 描述当前的用户数量以及配置信息是否和业务匹配

  4. 给出相应的解决方案,分为几个阶段:长期,中期,短期,分别给出相应的解决思路和资源匹配

  5. 对以上的方案进行比较,明确场景和优缺点,对于成本上的需求,并给出适当的建议,提请领导批示

1 个赞

尊敬的领导:
我想向您报告一个问题,我们研发部门最近在首页上发布了一个 SQL 查询 OLAP 库的功能。在早高峰期间,由于登录并发量太高,OLAP 库被压垮了,导致用户无法正常使用该功能。
我们正在努力解决这个问题,包括优化 OLAP 库的性能以及优化并发登录处理等。我们已经采取了措施来确保不会再次发生类似的情况,并将持续监控和测试以确保该功能的可靠性和可用性。

------ From ChatGPT

3 个赞

事故情况:早高峰首页查询功能大量白屏
事故原因:未考虑SQL查询性能和并发对OLAP库影响,并发量过高导致雪崩
事故等级:P0
临时处理方案:由于使用TiDB,迅速扩容TiFlash节点,抗住并发 or 功能有下线开关临时下线
后续整顿方案:所有上线 SQL 均需经过审计平台审核,评估 SQL 性能及上线后并发

1 个赞

事故汇报重在实事求是,把原因、已经采取的措施、预防措施说明白即可。

2 个赞

尊敬的领导:

在昨天的早高峰期间,我们的一次 SQL 查询操作压垮了 OLAP 库,导致库无法响应查询请求。经过分析,我们发现这是因为该 SQL 查询的并发量过高,超过了 OLAP 库的最大处理能力。我们非常抱歉这件事给公司带来的不便和影响。

为了解决这个问题,我们已经采取了以下措施:

  1. 针对该 SQL 查询,我们已经进行了优化,使其在 OLAP 库中的查询速度更快,减少了查询时间。

  2. 我们已经对 OLAP 库进行了升级和优化,以提高其并发能力和稳定性。

  3. 我们会进一步加强监控和预警机制,及时发现并解决潜在的性能问题。

我们非常重视此事,并将采取一切必要措施,确保这样的事件不再发生。同时,我们也欢迎领导和同事们提出宝贵的意见和建议,帮助我们更好地改进和优化数据库应用。

谢谢。

日常巡检事件:领导 我们的数据库SQL查询OLAP库在早上发生故障。
发生原因:为充分评估系统SQL在短时间类大流量高并发请求事件的响应。
风险评估等级:高危
解决方案:电话联系TIDB工程师协助。延保

1.首先排查问题,提出解决方案
2.坦诚对待承担责任
3.事后复盘

领导,您好。咱们业务的流量这一块今天访问量比较大,过高的并发把 olap 库压死了,咱们可以对SQL进行查询,然后优化,让语句OLAP 库中的查询速度更快。性能上需要检查硬件设备,看看受否需要要增加一些节点,然后做负载均衡。

实事求是,提出预防措施,和整改建议

领导,我这边近期有一个需求,目前已实现并放置在早上执行任务,由于前期性能测试的不充分,以及我们用户增长的过快,导致执行的任务所需资源消耗较大,导致了今天的OLAP集群。这块我会尽快拉通运维恢复集群,并针对任务的SQL再次进行优化,并加强性能测试,根据测试结果结合需求要求,再看是否需要增加动态资源

领导,要不咋们跑路吧! 开玩笑的,找出原因,提出优化建议和方案,供领导选择和决策!