Search results

Oozie
'''Oozie''' 是一个开源的 [[工作流调度系统]]，用于在 [[Hadoop]] 集群上管理和执行复杂的数据处理流程。它由 Apache 基� * '''集成 (Integration)'''：与 Hadoop 生态系统中的其他组件（例如 [[HMapReduce]]、[[Hive]]、[[Pig]] ...

9 KB (307 words) - 17:15, 8 May 2025
HDFS配置
Hadoop 分布式文件系统 (HDFS) 是 [[Hadoop]] 生态系统的核心组件，负责存储和管理大规模数据集。正确配置 HDFS 对于 Hadoop 集群的性能、可靠性和可扩展性至关重要。本文旨在为� * **core-site.xml:** 包含 Hadoop 的通用配置，例如 Hadoop 的临时目录、端口号等。 ...

9 KB (353 words) - 16:03, 7 May 2025
HDFS 文件系统
Hadoop 分布式文件系统 (HDFS) 是 [[Hadoop]] 项目的核心组件之一。它是一个专为存储和处理大规模� * **JournalNode (日志节点):** 从 Hadoop 2.x 开始引入，用于存储 NameNode 的编辑日志，提高 NameNode ...

8 KB (143 words) - 20:09, 4 May 2025
Apache HBase
Apache HBase 是一个开源的、分布式、列式 NoSQL 数据库，构建于 [[Hadoop]] 之上。它旨在处理海量数据，提供快速的随机访问，并� HBase 的架构基于 Hadoop 分布式文件系统 (HDFS)。其主要组件包括： ...

9 KB (193 words) - 01:34, 24 April 2025
Azure 存储
* '''大数据分析'''：存储大量的数据，并使用 Azure 的大数据分析服务进行分析。[[Hadoop on Azure]]、[[Azure Data Lake Storage]]。 ...

9 KB (188 words) - 08:06, 24 April 2025
HDFS Audit Logging
Hadoop 分布式文件系统 (HDFS) 是 Hadoop 生态系统中的核心组件，用于存储海量数据。为了确保数 * **安全性:** 通过记录用户执行的操作，审计日志可以帮助识别未经授权的访问、修改或删除数据的行为。这对于检测和响应安全事件至关重要。[[Hadoop 安全]] ...

9 KB (254 words) - 16:01, 7 May 2025
云计算与大数据
* **Hadoop:** 一个开源的分布式存储和处理框架。 [[Hadoop 分布式文件系统 (HDFS)]] 是其核心组件。 * **计算:** 云计算提供了强大的计算能力，用于处理大数据。例如[[亚马逊 EMR]]，基于 Hadoop 的云服务。 ...

9 KB (92 words) - 04:55, 16 May 2025
Azure 数据湖存储
Azure 数据湖存储 Gen2 结合了 Azure Blob 存储的成本效益、可扩展性和可靠性，以及 Hadoop 分布式文件系统 (HDFS) 的层次化命名空间。以下是其关键� ...'' Azure 数据湖存储 Gen2 兼容 HDFS API，这意味着您可以直接使用 Hadoop 生态系统中的工具和框架，例如 [[Apache Hadoop]]、[[Apache Spark]] 和 [[Apache Hive]] 来访问和分析存储在数据� ...

11 KB (223 words) - 08:16, 7 May 2025
Hive 数据仓库
...的数据查询变得更容易，即使对于不熟悉 MapReduce 的用户来说也是如此。它将 SQL 查询转换为一系列 MapReduce 任务，从而利用 Hadoop 的并行处理能力。本文将详细介绍 Hive 的架构、核心概� * '''Hadoop 分布式文件系统 (HDFS):''' 存储 Hive 的数据。 ...

9 KB (407 words) - 02:32, 5 May 2025
HBase
...NoSQL 数据库，运行于 Hadoop 之上。它旨在处理具有海量数据的快速随机访问，非常适合那些需要实时读写访问的应用程序。虽然最初设计用于与 [[Hadoop]] 一起使用，但 HBase 也可以独立运行。本文将为初学者� ...的设计受到 Google 的 [[Bigtable]] 论文的启发。Bigtable 展示了一种处理大规模数据集的有效方法，HBase 的目标就是为 Hadoop 生态系统提供类似的功能。HBase 的核心设计理念包括： ...

10 KB (218 words) - 16:01, 7 May 2025
云计算在医学影像存储和分析中的应用
* **分布式计算:** [[Hadoop]] 和 [[Spark]] 等分布式计算框架可以处理大规模的医学影� ...

10 KB (80 words) - 05:16, 16 May 2025
Apache Hive
...e Hive''' 是一个构建于 [[Hadoop]] 之上的数据仓库工具，它提供了一种 SQL 风格的查询语言，称为 HiveQL，用来查询存储在 Hadoop 分布式文件系统 (HDFS) 中的数据。 Hive 简化了大数据分析� * '''与 Hadoop 集成：''' 充分利用 Hadoop 的分布式存储和计算能力。 ...

9 KB (356 words) - 07:03, 7 May 2025
Hive 文档
'''Hive''' 是一个建立在 [[Hadoop]] 之上的数据仓库系统，提供了一种 SQL 风格的查询接口来查询存储在 Hadoop 分布式文件系统（HDFS）中的数据。它将 SQL 转换为 MapReduc * '''MapReduce：''' Hive 将 HiveQL 查询转换为一系列的 MapReduce 作业，在 Hadoop 集群上执行。 ...

9 KB (366 words) - 16:32, 7 May 2025
Apache Hudi
Apache Hudi (Hadoop Upserts and Incremental Data) 是一个开源的数据湖平台，旨在将传统的数据湖通常基于 [[Hadoop Distributed File System]] (HDFS) 或云对象存储 (如 [[Amazon S3]]、[[ ...

9 KB (259 words) - 07:03, 7 May 2025
AWS 服务列表
* '''[[Amazon EMR]] (Elastic MapReduce):''' 一个托管的 Hadoop 服务，用于处理和分析大数据。 ...

9 KB (390 words) - 11:36, 23 April 2025
Cloud Architecture
* **数据湖架构:** 集中存储各种类型的数据，以便进行分析和机器学习。[[Apache Hadoop]] 和 [[Apache Spark]] 是常用的数据湖技术。 ...

9 KB (73 words) - 11:21, 7 May 2025
Azure Data Lake Storage Gen2
...提供的一种高度可扩展且经济高效的数据湖存储解决方案。它旨在满足大数据分析的需求，结合了 Azure Blob Storage 的可扩展性和成本效益与 Hadoop 分布式文件系统 (HDFS) 的功能。对于那些希望构建现代数� * **Hadoop 分布式文件系统 (HDFS):** 一种用于在大型集群上存储和处 ...

9 KB (258 words) - 07:41, 7 May 2025
Mahout API
Mahout最初设计用于 Hadoop，旨在利用 Hadoop 的分布式计算能力处理大规模数据集。随着时间的推移� * `HadoopFileSystem`: 将数据存储在 Hadoop 分布式文件系统 (HDFS) 中，适用于大型数据集。 ...

9 KB (289 words) - 05:08, 7 May 2025
Avro
'''Avro'''是一种用于数据序列化的系统，最初由 Apache 开发，现在已成为 Apache 项目的一部分。它被广泛应用于大数据处理领域，尤其是在 Hadoop 生态系统中。对于从事金融数据分析，尤其是二元期权交 [[Hadoop]] ...

10 KB (338 words) - 07:29, 7 May 2025
Google Cloud Platform 服务
* [[Cloud Dataproc]]: 一个托管的 [[Hadoop]] 和 [[Spark]] 服务，用于处理大型数据集。Cloud Dataproc 可� ...

9 KB (209 words) - 13:29, 4 May 2025

Search results

Navigation menu