近日, 主题为「Explore the Sky」的 TiDB Hackathon 2021 完美收官!今年已经是 TiDB Hackathon 第五届赛事,参赛规模创历届之最,共有 279人 ,64 支队伍参赛,有来自腾讯、华为、网易、美团、字节、京东、滴滴等企业的上班族,也有来自北大、北邮、中科院、上海交大、RMIT 等高校的学生。
在两天一夜的 Hacking Time 中,围绕着内核、工具、生态、「∞」四大赛道,选手们拿出了众多令评委惊艳的项目。在 TiDB 内核方向做出不少 hardcore 、大幅提升性能的创新项目,在工具方向对 TiDB 的可观测性及诊断易用性做出了大幅优化,在生态扩展方向百花齐放,出现了语法完备的分布式图数据库,给 TiDB 打通了入湖的高速通道,很多项目其实已经在 TiDB 的 Roadmap 里,并已经具备落地的成熟度。最终, 有 10 支队伍瓜分了总计 40万元的现金奖,另有 10 支队伍分获无限创意奖、校园团队奖、用户之选奖、最佳市场潜力奖、云上应用奖、积分挑战奖、技术潜力奖、最佳人气奖 。
项目创意无限
本届参赛队发挥出天马行空的想象力,创意无限,向组委会提交了各种充满创意的项目:如 TiDB 冷热数据分层存储、TiLaker: 为 TiDB 打通了入湖的高速通道、TiDB Flashback、TPC TiKV、黑马警长、collie、基于 TiDB/TiKV 的 oom.ai 特征平台、TiDB Visual Plan……连我司 CTO 黄东旭都组队参赛了,他的项目是 pCloud,号称数据库上的 iCloud,甚至还有队伍脑洞大开,实现了 TiDB 与 Minecraft 的梦幻联动……还有太多项目就不一一列举了,大家可以通过活动官网了解全部项目。
滑滑蛋组 chaoscraft Demo 演示
从质量来看,优秀项目惊喜不断,选手直呼 Hackathon 越来越卷,奖项角逐非常激烈。经过紧张的开发和高密度的闪电答辩, 共有 20 支队伍脱颖而出进入到最后的决赛答辩,还有还有 5 支队伍做云上应用奖答辩,5 支队伍做无限创意奖答辩 。
由北京、上海、广州、深圳、杭州、成都六城联动直播的 Demo Show 从下午 13:30 一直持续到深夜 22:00。虽然决赛答辩长达 9 个小时,但是大家越看越兴奋。平时含蓄内敛的技术大佬们一旦介绍起自己的产品,就变身为滔滔不绝的演说家。放几张现场,大家随便感受下:
决赛答辩现场
最终,经过紧张评选,评委团最终共评出了一、二、三等奖和技术潜力奖、用户之选奖、云上应用奖、无限创意奖。由于奖项角逐太激烈,有很多优秀项目遗憾落选,以下是全部获奖名单:
本届 Hackathon 评委、PingCAP VP of Engineering 唐刘老师对今年的项目赞不绝口,对多个项目给出了 “不负责任” 点评:
内核增强
He3:TiDB 冷热数据分层存储
这个项目获得了本次 Hackathon 的一等奖,在跟本次 Hackathon 另外一个类似项目整合,会为后面 TiDB 跟 S3 的整合打下不错的基础,至少这次 Hackathon 验证了可行性。其实原理很简单,将冷的数据放到 S3,然后将算子尽量的下推到 S3,通过 S3 原生的 select 功能来加速查询。当然,如果数据已经在 S3,我们还可以通过 cloud 上面其他的服务,譬如 Athena,来做更多的查询聚合操作,加速查询。这次大家都是在通过 partition 做文章,毕竟根据时间片来分的 partition 是非常常用的一种操作,后面,我们内部现在也在通过 LSM 做一些跟 S3 整合的研究,我还是很期待这些都能在今年看到不少的成果产出。譬如我们的 TiDB Cloud Dev Tier 集群就可以完全用这套机制来先验证。
诊断易用性工具
TiVP:TiDB Visual Plan,慢 SQL 诊断
当我终于看到可视化的执行计划的时候,我几乎流下了激动的泪水。毕竟我们之前诊断慢 SQL 实在是太苦了,那一大屏的执行计划,几乎叫做没法看,而且如果要对比两个执行计划的异同,就更崩溃了。有了可视化,至少分析到底哪里慢的效率会提升很多,而且后面我们完全可以将 SQL advisor 的功能直接整合到 TiVP 上面,让大家直接在线能进行 SQL bind,add/drop index 这些操作。看完这个项目,我立刻问了下 wish 同学,他直接甩给我一张更漂亮的 Visual Plan 的图,原来已经排在了 roadmap 里面,大家拭目以待。
生态扩展
TiMatch - 语法完备的分布式图数据库
去年 TiGraph 已经让大家惊艳,今年 TiMatch 更让人期待了。这次易用性更好,而且对于老集群也能直接升级使用。因为 TiMatch 只是内部建立了一套 graph index,然后通过 TiDB 分布式事务机制,跟原先关系表的数据统一更新。语法上面,借鉴了 Oracle graph 的语法,所以已经是关系完备的了,不过我觉得后面的挑战在于性能上面,希望下一届这块能给大家展示相关的数据。
TiLaker: 为 TiDB 打通了入湖的高速通道
去年次 Hackathon 其实有不少跟 Flink 整合的项目,不过今年决赛就看到一个,实话我还是有点小失望的。但今年 TiLaker 做的还是挺完备的,毕竟有 Flink committer 的参与,大家给 Flink 实现了一个 CDC connector,这样能让 Flink 直接读取 TiDB 的增量数据,同步到下游了。借助 Flink 的能力,让 TiDB 更好的跟下游生态进行了打通,后面也希望有不少的应用案例能出来。
pCloud :pCloud
这是一个非常有意思的项目,贵司的 CTO 东旭同学直接上场带货,先抛开他个人现场极大的感染力,从实际来看,pCloud 真的做的很不错。东旭只是展示了产品效果,聊了聊商业模式这些,但我其实是知道这个项目的底层实现的,还是很有挑战。不过这个也给下一届 Hackathon 参赛的同学给了另一种参考,一个项目,大家有时候更容易关注技术本身,但如果我们是做一个产品,或者一个 SaaS 服务,对于用户的理解,对于商业的理解也是非常关键的。所以即使大家觉得自己对 TiDB 没太多理解,写不了太 hardcore 的程序,但也可以从另外的方向来突破。
……此处省略千字长文,以上观点仅代表首席架构师个人观点。
六城连线,码力集结
8 日一早,各地参赛队伍就开始陆续到达 PingCAP 在各地的活动现场,签到、拍照并领取纪念礼品。参赛选手们有来自腾讯、华为、网易、美团、字节、京东、滴滴等企业的上班族,也有来自北大、北邮、中科院、上海交大、RMIT 等高校的学生。
!
选手们或争分夺秒地准备项目,或热烈地进行小组讨论,或马不停蹄地进行 Coding……为能在规定时间之内交付出让自己、评委满意的项目,码力全开!
最小的选手仅有 8 岁,编程从少年开始~
分布式赛事保障,吃喝不能少
硬核的黑客马拉松少不了吃吃喝喝,为了保障六城分布式赛事顺利,志愿者们为参赛选手们准备了各种下午茶、午餐、晚餐,穿梭在赛场中为大家提供分布式后勤保障。
评委老师拍案叫绝
本届 Hackathon 项目一个比一个精彩,评委老师们也卯足了劲儿,聚精会神地观看项目的每一个细节,演示结束后,评委老师们还会现场提问,不乏对项目完善的建议。
特别感谢 DataPipeline CTO 陈肃、云启资本合伙人陈昱、PingCAP TiDB Cloud 负责人代闻、多点 Dmall 数据库团队负责人冯光普、PingCAP 工具团队 PM 、涛思数据联合创始人兼技术 VP 关胜亮、Apache Foundation Member 郭炜、美团数据库研发中心负责人李凯、SphereEX 联合创始人 & CTO / Apache ShardingSphere PMC 潘娟、小米大数据委员会秘书长潘英超、Google Cloud Data Management Specialist 乔木、神州数码集团副总裁兼 CIO 沈旸、PingCAP VP of Engineering 唐刘、Apache 软件基金会董事 / Tetrate 创始工程师吴晟、华创资本合伙人谢佳、明势资本执行董事徐之浩、PingCAP 混沌工程团队负责人殷成文、上海交通大学特聘教授 / 博士生导师 / ACM 班创始人俞勇、Apache Pulsar PMC 成员 / StreamNative 联合创始人翟佳、PingCAP DataPlatform PM 翟玉龙、PingCAP 研发总监张建、Datafuse Labs 联合创始人张雁飞等 22 位老师认真负责的评审。
赛后,我们还将采访优秀项目赛队,为大家深入介绍他们的项目设计思路、实现过程以及未来工作方向,希望带给大家一些启发。敬请期待!
最后,感谢 赞助商和合作伙伴对赛事的大力支持,也感谢志愿者们的奉献!我们明年再见!