亚马逊网络服务教程
AWS - 首页

亚马逊网络服务资源
AWS - 快速指南
AWS - 有用资源
AWS - 讨论

亚马逊网络服务 - 弹性 MapReduce

Amazon Elastic MapReduce (EMR) 是一种网络服务，它提供了一个托管框架，可以轻松、经济高效且安全地运行数据处理框架，例如 Apache Hadoop、Apache Spark 和 Presto。

它用于数据分析、网络索引、数据仓库、财务分析、科学模拟等。

如何设置 Amazon EMR？

按照以下步骤设置 Amazon EMR：

步骤 1 - 登录 AWS 账户并在管理控制台中选择 Amazon EMR。

步骤 2 - 为集群日志和输出数据创建 Amazon S3 存储桶。（Amazon S3 部分详细介绍了此过程）

步骤 3 - 启动 Amazon EMR 集群。

以下是创建集群并将其启动到 EMR 的步骤。

使用此链接打开 Amazon EMR 控制台：https://console.aws.amazon.com/elasticmapreduce/home
选择创建集群并在“集群配置”页面提供所需详细信息。

Cluster Configuration

将“标签”部分选项保留为默认值并继续。
在“软件配置”部分，将选项保留为默认值。

Spark

在“文件系统配置”部分，将 EMRFS 的选项保留为默认设置。EMRFS 是 HDFS 的一种实现，它允许 Amazon EMR 集群将数据存储在 Amazon S3 上。

Server Side Encryption

在“硬件配置”部分，在 EC2 实例类型字段中选择 m3.xlarge，并将其他设置保留为默认值。单击“下一步”按钮。

Hardware Configuration

在“安全和访问”部分，对于 EC2 密钥对，从 EC2 密钥对字段中的列表中选择该对，并将其他设置保留为默认值。
在“引导操作”部分，将字段保留为默认设置，然后单击“添加”按钮。引导操作是在每个集群节点上启动 Hadoop 之前的设置期间执行的脚本。
在“步骤”部分，将设置保留为默认值并继续。
单击“创建集群”按钮，将打开“集群详细信息”页面。在这里，我们应该运行 Hive 脚本作为集群步骤，并使用 Hue Web 界面查询数据。

步骤 4 - 使用以下步骤运行 Hive 脚本。

打开 Amazon EMR 控制台并选择所需的集群。
移动到“步骤”部分并展开它。然后单击“添加步骤”按钮。
将打开“添加步骤”对话框。填写所需字段，然后单击“添加”按钮。

Streaming Program

要查看 Hive 脚本的输出，请使用以下步骤：
- 打开 Amazon S3 控制台并选择用于输出数据的 S3 存储桶。
- 选择输出文件夹。
- 查询将结果写入一个单独的文件夹中。选择os_requests。
- 输出存储在文本文件中。可以下载此文件。

Amazon EMR 的优势

以下是 Amazon EMR 的优势：

易于使用 - Amazon EMR 易于使用，即易于设置集群、Hadoop 配置、节点预置等。
可靠 - 从可靠性方面来说，它会重试失败的任务并自动替换性能不佳的实例。
弹性 - Amazon EMR 允许计算大量实例以按任何规模处理数据。它可以轻松增加或减少实例数量。
安全 - 它会自动配置 Amazon EC2 防火墙设置、控制对实例的网络访问、在 Amazon VPC 中启动集群等。
灵活 - 它允许完全控制集群并访问每个实例的根访问权限。它还允许安装其他应用程序并根据需要自定义集群。
经济高效 - 其定价易于估算。它按小时对使用的每个实例收费。

打印页面

广告

© . All rights reserved.