作者 | Renato Losio译者 | 平川策划 | Tina 最近,Apache 软件基金会宣布 Apache Hudi 1.0 正式发布。这是一个支持近实时分析的事务型数据湖平台,最初于 2017 年推出。Apache Hudi ...
在数据驱动的时代,Apache软件基金会于2025年1月正式发布了Apache Hudi 1.0。这一新版本的推出,标志着Hudi项目的发展进入了一个全新的阶段。Apache Hudi作为一个支持近实时分析的事务型数据湖平台,旨在优化增量数据的处理和查询性能。自2017年首次推出以来,Hudi已经成为数据湖技术的重要玩家,尤其是在处理大规模数据集时展现出了卓越的能力。
三种开源表格式突出重围。虽然AWS、Oracle、Teradata等为数据湖仓一体引入了专有的表格式,但三种开源表格式逐渐占据主流:由Databricks引入的 Delta Lake,以及社区发起的Apache Hudi和Apache Iceberg。 云服务商对湖仓一体的支持在发展中显得尤为关键。AWS、Google Cloud等 ...
而Apache Hudi是一款开源的数据管理框架,专为大数据场景设计。它能在Hadoop生态系统中,实现对海量数据的高效存储与管理。其支持增量数据处理 ...
例如,Apache Hudi同样在数据湖领域表现不俗,但Iceberg的开放性和丰富的功能特性使其在企业级应用中展现出更大的潜力。许多分析工具和云平台 ...
在目前的市场中,主要有以下三种开放表格式(Iceberg、Delta Lake 和 Hudi): Apache Iceberg Apache Iceberg 是一种高性能表格格式,专为海量数据集而设计。
它作为数据文件之上的元数据层运行,促进跨各种处理引擎的无缝数据管理和访问。在目前的市场中,主要有以下三种开放表格式(Iceberg、Delta Lake 和 Hudi): Apache Iceberg 是一种高性能表格格式,专为海量数据集而设计。其架构优先考虑高效的读取操作和可扩展 ...
在京东集团内部,数据湖技术也在迅速迭代,为业务数据实时化转型提供强有力的支持。京东数据湖选型 Apache Hudi,结合独特业务模式,聚焦 IO 性能、特性丰富度、生态等开展大量自研,实现多项内核特性领先开源社区。2024 年实现京东千亿规模流量数据资产入 ...
分享企业技术架构相关的技术实践与使用案例,为企业架构升级和转型提供方案参考。
最新的报告显示,Lakehouse已被越来越多企业所采用,基于Iceberg的Lakehouse更是被认为是分析的默认选择。Dremio的研究发现,55%的企业已经在这些平台上运行大部分分析功能,预计这一数字将在未来三年内提升至67%。这一改变显然反映了企业数据战略的重大转变。