数据库 频道

官宣|Apache Paimon 毕业成为顶 级项⽬,数据湖步⼊实时新篇章!

  北京时间 2024 年 4 月 16日,开源软件基金会 Apache Software Foundation(以下简称 ASF)正式宣布 Apache Paimon 毕业成为 Apache 顶 级项目(TLP, Top Level Project)。经过社区的共同努力和持续创新,Apache Paimon 在构建实时数据湖与流批处理技术领域取得了重大突破,数据湖步入实时新篇章!

  Apache 官方博客发布了 Apache Paimon 毕业的消息:

  (Apache 官网部分截图)

  Apache Paimon 成长历史

  Apache Paimon 原名 Flink Table Store,2022年1月在 Apache Flink 社区从零开始研发,Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合,促进数据在数据湖上真正实时流动起来,并为用户提供实时离线一体化的开发体验。

  2023 年 3 月 12 日,Flink Table Store 项目顺利通过投票,正式进入 Apache 软件基金会 (ASF) 的孵化器,改名为 Apache Paimon,一个真正面向 Streaming 以及 Realtime 的数据湖存储项目。之后在导师 Yu Li、Becket Qin、Stephan Ewen、 Robert Metzger 的指导下,由孵化器管理委员会成员进行辅导和孵化。

  2024 年 3 月 20 日,Apache 董事会通过 Apache Paimon 毕业决议,结束了为期一年的孵化,正式确定 Apache Paimon 成为 Apache 顶 级项目。

  孵化的一年间,Paimon 社区的贡献者和关注者都获得了非常大的提升。

  Paimon 在这一年里发布了四个大版本,并在大量企业生产实践中使用,包括 阿里巴巴、字节跳动、同程旅行、蚂蚁集团、中国联通、网易、中原银行、汽车之家、平安证券、喜马拉雅等企业,广泛应用于实时数据湖的构建,帮助数据库更好的 CDC 入湖,帮助构建近实时流式湖仓,帮助企业提升数据时效性价值,获取业务实时化效果。

  核心能力

  Apache Paimon 是一个湖格式,结合 Flink 及 Spark 构建流批处理的实时湖仓一体架构。Paimon 创新的结合湖格式与 LSM 技术,给数据湖带来了实时流更新以及完整的流处理能力。

  在过去的孵化期间,Paimon 通过技术创新不断克服挑战,展现出了以下关键特性:

  ● 实时入湖能力增强:Paimon 提供了一系列的入湖工具,自动同步 Schema 变更,允许快速将包括 MySQL 在内的多种数据库系统的实时变化同步至数据湖,即便在千万级数据规模下也能保持高效率与低延迟。

  ● 湖上批流一体处理:Paimon 结合 Flink 提供完整的流处理能力,结合 Spark 提供完整的批处理能力。基于统一的数据湖存储,提供数据口径一致的批流一体处理,提高易用性并降低成本。

  ● 全面生态集成拓展:Paimon 已经与众多开源工具和技术栈紧密集成,支持大数据典型计算引擎,包括 Flink、Spark、Hive、Trino、Presto、StarRocks、Doris 等等,统一存储,计算无边界。

  ● 湖仓存储格式革新:Paimon 持续创新,引入新功能,在流批技术处理的基础上,提出 Deletion Vectors 和索引来增强查询性能,在分钟级时效性基础上满足流、批、OLAP 等场景的全方位支持。

  Apache Paimon 的毕业意味着该项目已经在社区治理、代码质量、文档完善度以及用户采用度等方面达到了 Apache 社区严格的标准要求,得到了广泛认可。这将进一步加速项目的普及与应用,推动实时数据湖技术在全球范围内的广泛应用。

  毕业寄语

  衷心祝贺 Paimon 社区毕业成为 Apache 顶 级项目!作为项目的孵化 Champion 和导师,很高兴看到 Paimon 社区通过践行 Apache Way 发展的越来越繁荣。在孵化期间,Paimon 不仅发布了多个功能丰富且具备创新性的版本,还营造了一种包容的氛围,吸引了很多新的贡献者加入社区。祝愿 Paimon 百尺竿头更进一步,成为世界级的明星项目,推动实时数据湖技术的持续发展。

  —李钰 ASF Member and Incubator Mentor,阿里云 EMR 负责人

  祝贺 Paimon 毕业并成为 ASF 的顶 级项目。事实上,Paimon 已经开始帮助阿里巴巴对 Lakehouse 架构进行实时更新和分析,此外,我们还将在未来利用 Paimon 为 AI 业务服务。

  —王峰 阿里云开源大数据负责人

  热烈祝贺 Apache Paimon 顺利毕业,这是一个重要的里程碑,是对 Paimon 社区开发者的肯定。我有幸参与到 Paimon 从 Flink Table Store 到独立孵化,到顺利毕业的整个过程,切身体会到社区开发者的务实和极致。祝愿 Apache Paimon 在未来的发展中解决更多的数据湖业务场景,取得更大的成功。

  —张光辉 字节跳动流式计算负责人

  祝贺 Paimon 从孵化器中毕业成为 Apache 开源顶 级项目!Apache Paimon 是一款高性能、低延迟的实时数据湖,在蚂蚁公司风控、五福等场景应用中,显著降低了数据计算、存储成本,明显提升了数据开发效率。祝愿 Apache Paimon 社区发展越来越好,彻底改变当前流批分离的数据开发模式,成为数据湖领域的领导者。

  —李志刚 蚂蚁集团实时计算引擎负责人

  恭喜 Paimon 顺利毕业,我们从早期就开始应用 paimon 到我们的湖仓建设之中,得益于 Paimon 简单、流批一体等特性在我们的数据湖仓建设中发挥了重要作用,极大的简化了湖仓业务的开发流程。我们深信 Paimon 毕业后会为更多的企业的数据湖仓带来便利,为湖仓发展作出更多的创新。

  —吴祥平 同程旅行大数据计算负责人

  我很高兴 Paimon 的社区在过去的一年里变得越来越强大,大量的开发者和用户加入了这个社区,经过社区的努力,Paimon 已经超出了我的想象,在许多企业中拥有非常丰富的使用场景。希望 Paimon 能在未来成为统一的湖存储底座,满足离线批计算、实时流计算与 OLAP 计算。

  —李劲松 Apache Paimon PMC Chair

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
0
相关文章