活动简介
当前 AI 大模型的应用正在各行各业如火如荼地展开,很多企业都在利用大模型技术重塑其产品和流程;然而作为 AI 三大核心要素之一的数据,在很多企业里得不到有效的治理、管理和发现,这大大限制了 AI 大模型的训练、微调及推理的效果。越来越多的企业认识到数据的重要性,并积极探索如何使数据能够高效、低成本地服务于 AI 应用。本次活动邀请了业内领先的数据和 AI 公司及研究机构,围绕如何更好地实现 Data for AI 进行深入探讨和交流。
主办单位:Datastrato
协办单位:小米集团,LF AI & DATA,北京智源人工智能研究院
支持单位:腾讯云,Intel, Zilliz,PingCAP,Jina AI,JuiceData,蚂蚁集团,亚马逊云科技
活动时间和地点:
活动时间:2024年9月21日(周六)13:00-17:30
活动地点:车库咖啡(北京海淀西大街48号二层)
活动议程
13:00-13:30 签到
13:30-13:40 Openning
演讲者:堵俊平,Datastrato 创始人兼 CEO,LF AI & DATA 基金会董事,Apache 软件基金会成员,大数据技术与开源领域专家。
13:40-14:00 Apache Gravitino: 构建面向 AI 的统一数据目录
演讲者:史少锋,Datastrato VP of engineering,Apache 会员, Apache Incubator PMC, Mentor of Apache Gravitino, Gluten, HoraeDB; 专注于大数据分析和云计算技术。曾任 eBay 全球分析基础架构部大数据高级工程师,IBM 云计算架构师等。
14:00-14:20 AI 时代的向量数据库需求与能力演进
演讲者:郭人通,Zilliz 合伙人和产品负责人,是 CCF 分布式计算与系统专委会执行委员。他专注于开发面向 AI 的高效并可扩展的数据分析系统,是 Milvus 项目的系统架构师。其工作成果曾发表于 SIGMOD、VLDB、USENIX ATC、ICS、DATE、IEEE TPDS 等国际顶级会议与期刊。在加入 Zilliz 前,他曾就职于华为,是 ModelArts 平台核心研发成员。郭人通拥有华中科技大学计算机软件与理论博士学位。
14:20-14:40 TiDB 面向 AI 和云的技术创新
演讲者:刘松,PingCAP 副总裁 有超过 20 年的 IT 领域从业经验,曾经担任甲骨文大中国区技术战略部总经理,阿里云副总裁等职务,曾负责阿里云的金融云拓展,云计算生态构建,人才培养计划等工作。刘松长期活跃于中国软件产业,深度观察互联网与信息化产业融合趋势,在软件与互联网行业发展趋势,云计算和开源产业的商业模式构建,数据库技术发展趋势保持着持续的关注度和参与度
14:40-15:10 小米 Data for AI 数据管理实践
演讲者:
肖杰宝,小米软件研发工程师,Apache Gravitino (Incubating) Collaborator,主要负责数据湖和元数据相关的研发工作。
蔡灿,小米软件研发工程师,Apache Gravitino (Incubating) Contributor,之前做离线计算方向相关工作,现在主要负责数据湖和元数据相关研发工作。
15:10-15:20 中场休息
15:20-15:40 Infinity 系列指令数据集:深入挖掘数据合成技术的潜能
演讲者:刘广,智源人工智能研究院数据研究组负责人,不仅负责了 FlagAI 这一开源项目,还主导开发了悟道天鹰(Aquila)系列语言大模型、AltCLIP/AltDiffusion 多语言多模态系列模型,以及 Infinity Instruct 千万指令数据集系列等重要项目。在人工智能领域的顶级学术会议和国际学术期刊上发表了多篇论文,并申请了十余项发明专利。目前,他正专注于基于大型语言模型(LLM/vLLM)的数据合成技术的研究与应用,致力于推动该领域的技术进步和创新。
15:40-16:00 RAG 系统技术开发实践与思考
演讲者:王峰,Jina AI 研发总监,主要负责文本向量 Embedding 和重排 Reranker 模型的训练和开发工作。此外,王峰博士具有非常丰富的开源项目开发和运营经验,对开源事业充满热情,是 Jina、clip-as-service、rungpt 等开源项目的核心贡献者或管理者。
16:00-16:20 腾讯云 TBDS:构建 AI 管线的数据基座
演讲者:田小康,腾讯云 TBDS 产品经理。2016年加入腾讯至今,先后负责 APM 类平台及腾讯云 TBDS 大数据平台的研发,在海量数据的处理及构建大数据平台积累了丰富的技术经验。
16:20-16:40 JuiceFS 在大模型存储领域的实践与思考
演讲者:李少杰,Juicedata 解决方案架构师,当前聚焦于 JuiceFS 社区版和企业版在AI领域的应用,有多年 Infra 架构的工作经验,曾在IBM和人行征信中心任职 Infra 架构师
16:40-17:00 企业 AI 软件开放平台 OPEA 概况及应用实例
演讲者:丁建峰 英特尔(中国)公司系统软件资深研发专家。负责研发的项目包括 Linux 操作系统,云计算基础软件 OpenStack 与 Kubernetes,Xeon 平台上系统软件的深度调优,以及生成式 AI 应用负载在云计算基础设施上的优化编排。近来专注于带领团队参与 OPEA 这个新发起的开源项目的研发。
17:00-17:30 自由讨论和交流
报名方式
扫码报名⬇️ or 点击报名
欢迎感兴趣的 TiDBer 报名!!