山海鲸可视化

Apache Flume(Distributed Log Collection for Hadoop)

山海鲸可视化,提供一站式数字孪生解决方案,致力于打造一款人人都会用的,零代码数字孪生工具。

简介

Apache Flume(Distributed Log Collection for Hadoop)是一个分布式的、高可用的、高可靠性的系统,用于高效地收集、聚合和移动大量的数据(通常是日志数据)到中央数据存储库,如 HDFS(Hadoop 分布式文件系统)、HBase 等。Flume 可以在数据源、存储和处理阶段提供端到端的可靠性,并支持灵活的数据传输和转换。
Snipaste_2023-04-19_14-06-24_waifu2x_art_noise1_scale.png

适用场景

Apache Flume 是一个分布式的、可靠的、可扩展的日志数据采集工具,主要用于将海量的数据从不同的数据源(如日志文件、网络数据流等)采集、传输到目标数据存储系统(如 Hadoop HDFS、Apache Kafka 等)。需要注意的是,Flume 作为一款数据采集工具,其适用场景通常需要与其他大数据处理工具(如 Hadoop、Kafka、Spark 等)或实时数据处理平台(如 Flink、Spark Streaming 等)结合使用,以实现完整的数据处理和分析流程。
优势:Flume 是一个可靠的、灵活的、可扩展的数据收集和传输系统,支持定制数据源,方便用户采集各类型数据源,同时 Flume 支持多种数据传输方式,如 HTTP、RPC、文件、Kafka 等。
缺点:由于 Flume 的多层数据缓存机制,会导致数据处理时间延迟,因此需要专人维护,同时 Flume 的多层数据缓存机制会导致数据处理时间延迟,不适用于低延迟数据处理场景。

图例

  1. 使用 Apache Flume 抓取数据示例。

  1. Apache Flume 单节点采集数据框架示例。

image.png

数字孪生大屏应用案例

目前,我们山海鲸可视化资源中心提供了丰富的数字孪生大屏案例,在网页上就可以快速体验大屏。

  1. 玩家游戏体验感分析可视化

image.png

  1. 杭州市交通运输综合展示

image.png

  1. 老姆庙倾斜摄影

Snipaste_2023-05-06_17-24-19.png

相关数据源

Amazon Aurora
Teradata
Apache Solr
Apache Zeppelin

参考资料

  1. https://zhuanlan.zhihu.com/p/50762957
  2. https://blog.csdn.net/weixin_43563705/article/details/103394210
  3. https://blog.csdn.net/qq_40822132/article/details/103747883