【TiDBer 唠嗑茶话会 60 】研发写了个 SQL 查询 OLAP 库，放到首页上了，因为早高峰登录的并发把 OLAP 库压死了，怎么措辞给领导汇报这件事？

TiDB社区小助手 · 2023 年2 月 24 日 11:56

本期唠嗑茶话会想让各位 TiDBer 们发挥一下语言的艺术，来聊聊职场措辞。如果研发写了一个 SQL 查询 OLAP 库，并且放到首页上了。早高峰登陆的并发把 OLAP 库压死了，该怎么措辞给领导汇报这件事情呐？

本期话题：

研发写了个 sql 查询 olap 库，放到首页上了，因为早高峰登录的并发把 olap 库压死了，怎么措辞给领导汇报这件事？

本期奖励：

参与奖：

参与话题讨论即可获得 30 积分～

活动时间：

2023.2.24-2023.3.3

张雨齐0720 · 2023 年2 月 24 日 13:32

为了验证OLAP数据库并发性能，做了一个简单验证。
实验证明OLAP数据库并发度支持有限，后续需要有并发度较高的需求，需要谨慎使用，严格控制并发。

Kongdom · 2023 年2 月 24 日 13:40

领导：
    随着我们业务的不断发展，用户的不断增长，最近软件已经做出相应调整并上线试用，但在早高峰时期，
数据库不能承受访问压力。基于此次事件，我们可以得出目前硬件已不能给用户提供完美的体验，急需升级
硬件。
    经过多方征求意见，最终形成建议方案选型分布式数据库TiDB。原因如下：
1、TiDB 是 PingCAP 公司自主设计、研发的开源分布式关系型数据库，是一款同时支持在线事务处理与在
线分析处理的融合型分布式数据库产品。同时，也是一款国产数据库，长期排名第一。
2、在高峰期支持横向扩展，支撑业务，低峰期支持缩容减配，节省开支。
3、能够同时告诉稳定的支持OLAP和OLTP业务，为后续业务升级做准备。
4、兼容 MySQL 5.7 协议和 MySQL 生态等重要特性，支持在本地和云上部署。

ti-tiger · 2023 年2 月 24 日 13:52

领导有个好消息有个坏消息，好消息是网站流量上来了，坏消息是流量上来后库没扛住！现在大家都在优化！

Jellybean · 2023 年2 月 24 日 15:13

拉上开发去诚恳地开个道歉会，同事们又有机会喝奶茶了

TiDBer_pFFcXLgY · 2023 年2 月 24 日 15:27

领导我们的数据库不能在高并发的场景写olap

xfworld · 2023 年2 月 25 日 01:45

首先恢复服务能力
澄清问题，找出相应的日志和配置信息
描述当前的用户数量以及配置信息是否和业务匹配
给出相应的解决方案，分为几个阶段：长期，中期，短期，分别给出相应的解决思路和资源匹配
对以上的方案进行比较，明确场景和优缺点，对于成本上的需求，并给出适当的建议，提请领导批示

dba-kit · 2023 年2 月 25 日 03:00

尊敬的领导：
我想向您报告一个问题，我们研发部门最近在首页上发布了一个 SQL 查询 OLAP 库的功能。在早高峰期间，由于登录并发量太高，OLAP 库被压垮了，导致用户无法正常使用该功能。
我们正在努力解决这个问题，包括优化 OLAP 库的性能以及优化并发登录处理等。我们已经采取了措施来确保不会再次发生类似的情况，并将持续监控和测试以确保该功能的可靠性和可用性。

------ From ChatGPT

ealam_小羽 · 2023 年2 月 25 日 06:07

事故情况：早高峰首页查询功能大量白屏
事故原因：未考虑SQL查询性能和并发对OLAP库影响，并发量过高导致雪崩
事故等级：P0
临时处理方案：由于使用TiDB，迅速扩容TiFlash节点，抗住并发 or 功能有下线开关临时下线
后续整顿方案：所有上线 SQL 均需经过审计平台审核，评估 SQL 性能及上线后并发

fanruinet · 2023 年2 月 25 日 08:47

事故汇报重在实事求是，把原因、已经采取的措施、预防措施说明白即可。

ShawnYan · 2023 年2 月 25 日 11:37

尊敬的领导：

在昨天的早高峰期间，我们的一次 SQL 查询操作压垮了 OLAP 库，导致库无法响应查询请求。经过分析，我们发现这是因为该 SQL 查询的并发量过高，超过了 OLAP 库的最大处理能力。我们非常抱歉这件事给公司带来的不便和影响。

为了解决这个问题，我们已经采取了以下措施：

针对该 SQL 查询，我们已经进行了优化，使其在 OLAP 库中的查询速度更快，减少了查询时间。
我们已经对 OLAP 库进行了升级和优化，以提高其并发能力和稳定性。
我们会进一步加强监控和预警机制，及时发现并解决潜在的性能问题。

我们非常重视此事，并将采取一切必要措施，确保这样的事件不再发生。同时，我们也欢迎领导和同事们提出宝贵的意见和建议，帮助我们更好地改进和优化数据库应用。

谢谢。

半瓶醋仙 · 2023 年2 月 25 日 13:00

日常巡检事件：领导我们的数据库SQL查询OLAP库在早上发生故障。
发生原因：为充分评估系统SQL在短时间类大流量高并发请求事件的响应。
风险评估等级：高危
解决方案：电话联系TIDB工程师协助。延保

waeng · 2023 年2 月 25 日 14:26

1.首先排查问题，提出解决方案
2.坦诚对待承担责任
3.事后复盘

会飞的土拨鼠 · 2023 年2 月 25 日 15:26

领导，您好。咱们业务的流量这一块今天访问量比较大，过高的并发把 olap 库压死了，咱们可以对SQL进行查询，然后优化，让语句OLAP 库中的查询速度更快。性能上需要检查硬件设备，看看受否需要要增加一些节点，然后做负载均衡。

YuchongXU · 2023 年2 月 26 日 00:10

实事求是，提出预防措施，和整改建议

MasterLee · 2023 年2 月 26 日 00:11

领导，我这边近期有一个需求，目前已实现并放置在早上执行任务，由于前期性能测试的不充分，以及我们用户增长的过快，导致执行的任务所需资源消耗较大，导致了今天的OLAP集群。这块我会尽快拉通运维恢复集群，并针对任务的SQL再次进行优化，并加强性能测试，根据测试结果结合需求要求，再看是否需要增加动态资源

小小橙兜 · 2023 年2 月 26 日 01:50

领导，要不咋们跑路吧！开玩笑的，找出原因，提出优化建议和方案，供领导选择和决策！