山海鲸可视化

Apache Hudi(Hadoop Upserts Deletes and Incrementals)

山海鲸可视化,提供一站式数字孪生解决方案,致力于打造一款人人都会用的,零代码数字孪生工具。

简介

Apache Hudi(Hadoop Upserts Deletes and Incrementals)是一个开源的分布式数据湖管理框架,旨在简化大规模数据湖中的数据管理、增量处理和实时分析。Hudi 最初由 Uber 开发,并且已经成为了 Apache 顶级项目。它提供了许多高级功能,使数据工程师和分析师能够更轻松地管理和分析大规模的数据湖中的数据。
image.png

适用场景

Apache Hudi 适用于需要处理大规模数据湖中的数据,支持增量处理、实时查询和高可用性的各种场景。
优势: Hudi 提供了强大的增量数据处理功能,支持追加、更新和删除操作,使数据湖管理更加灵活。Hudi 支持事务,确保数据写入的原子性和一致性,防止数据损坏或不一致。 Hudi 具有良好的可伸缩性,可以处理大规模数据湖中的海量数据,并支持水平扩展以应对增长需求。
缺点:使用事务来保证数据一致性可能会引入复杂性,需要谨慎设计和管理。Hudi 是为大规模数据湖场景设计的,不适用于所有数据管理需求,特别是小规模数据或不需要实时处理的情况。

图例

  1. Apache Hudi 框架。

image.png

  1. Apache Hudi 文件布局。

image.png

数字孪生大屏应用案例

目前,我们山海鲸可视化资源中心提供了丰富的数字孪生大屏案例,在网页上就可以快速体验大屏。

  1. 工厂运营驾驶舱

image.png

  1. 智慧工厂生产线

image.png

  1. 智慧社区管理大屏

image.png

相关数据源

Apache TinkerPop
Apache Nifi-Registry
Apache Pinot
Apache Pulsar

参考资料

  1. https://hudi.apache.org/
  2. https://www.oschina.net/p/hudi?hmsr=aladdin1e1
  3. https://www.infoq.cn/article/08t12zv6ev9spxalpklq