- HCatalog 教程
- HCatalog 首页
- HCatalog 简介
- HCatalog 安装
- HCatalog 命令行界面 (CLI)
- HCatalog CLI 命令
- HCatalog 创建表
- HCatalog 修改表
- HCatalog 查看
- HCatalog 显示表
- HCatalog 显示分区
- HCatalog 索引
- HCatalog API
- HCatalog 读写器
- HCatalog 输入输出格式
- HCatalog 加载器和存储器
- HCatalog 有用资源
- HCatalog 快速指南
- HCatalog 有用资源
- HCatalog 讨论
HCatalog 简介
什么是 HCatalog?
HCatalog 是 Hadoop 的一个表存储管理工具。它将 Hive 元存储的表格数据暴露给其他 Hadoop 应用程序。它使用户能够使用不同的数据处理工具(Pig、MapReduce)轻松地将数据写入网格。它确保用户不必担心数据存储的位置或格式。
HCatalog 作为 Hive 的关键组件,使用户能够以任何格式和任何结构存储数据。
为什么选择 HCatalog?
为合适的作业启用合适的工具
Hadoop 生态系统包含不同的数据处理工具,例如 Hive、Pig 和 MapReduce。虽然这些工具不需要元数据,但在元数据存在时仍然可以从中受益。共享元数据存储还可以使用户更容易跨工具共享数据。一个使用 MapReduce 或 Pig 加载和规范化数据,然后通过 Hive 进行分析的工作流程非常常见。如果所有这些工具共享一个元存储,那么每个工具的用户都可以立即访问使用其他工具创建的数据。不需要加载或传输步骤。
捕获处理状态以启用共享
HCatalog 可以发布您的分析结果。因此,其他程序员可以通过“REST”访问您的分析平台。您发布的模式对其他数据科学家也很有用。其他数据科学家将您的发现用作后续发现的输入。
将 Hadoop 与所有内容集成
Hadoop 作为处理和存储环境为企业带来了许多机会;但是,为了推动采用,它必须与现有工具一起工作并增强现有工具。Hadoop 应该作为您分析平台的输入,或者与您的运营数据存储和 Web 应用程序集成。组织应该能够享受到 Hadoop 的价值,而无需学习全新的工具集。REST 服务通过熟悉的 API 和类似 SQL 的语言为企业打开了平台。企业数据管理系统使用 HCatalog 与 Hadoop 平台更深入地集成。
HCatalog 架构
下图显示了 HCatalog 的整体架构。
HCatalog 支持读取和写入任何格式的文件,只要可以编写 **SerDe**(序列化器-反序列化器)。默认情况下,HCatalog 支持 RCFile、CSV、JSON、SequenceFile 和 ORC 文件格式。要使用自定义格式,必须提供 InputFormat、OutputFormat 和 SerDe。
HCatalog 建立在 Hive 元存储之上,并包含 Hive 的 DDL。HCatalog 为 Pig 和 MapReduce 提供读写接口,并使用 Hive 的命令行界面发出数据定义和元数据探索命令。