- 亚马逊网络服务教程
- AWS - 首页
- 亚马逊网络服务基础
- AWS - 云计算
- AWS - 基本架构
- AWS - 管理控制台
- AWS - 控制台移动应用
- AWS - 账户
- 亚马逊计算机服务
- AWS - 弹性计算云
- AWS - 自动扩展
- AWS - 工作空间
- AWS - Lambda
- 亚马逊数据库服务
- AWS - 关系数据库服务
- AWS - DynamoDB
- AWS - Redshift
- 亚马逊应用服务
- AWS - 简单工作流服务
- AWS - WorkMail
- 亚马逊网络服务资源
- AWS - 快速指南
- AWS - 有用资源
- AWS - 讨论
亚马逊网络服务 - 弹性 MapReduce
Amazon Elastic MapReduce (EMR) 是一种网络服务,它提供了一个托管框架,可以轻松、经济高效且安全地运行数据处理框架,例如 Apache Hadoop、Apache Spark 和 Presto。
它用于数据分析、网络索引、数据仓库、财务分析、科学模拟等。
如何设置 Amazon EMR?
按照以下步骤设置 Amazon EMR:
步骤 1 - 登录 AWS 账户并在管理控制台中选择 Amazon EMR。
步骤 2 - 为集群日志和输出数据创建 Amazon S3 存储桶。(Amazon S3 部分详细介绍了此过程)
步骤 3 - 启动 Amazon EMR 集群。
以下是创建集群并将其启动到 EMR 的步骤。
使用此链接打开 Amazon EMR 控制台:https://console.aws.amazon.com/elasticmapreduce/home
选择创建集群并在“集群配置”页面提供所需详细信息。
将“标签”部分选项保留为默认值并继续。
在“软件配置”部分,将选项保留为默认值。
在“文件系统配置”部分,将 EMRFS 的选项保留为默认设置。EMRFS 是 HDFS 的一种实现,它允许 Amazon EMR 集群将数据存储在 Amazon S3 上。
在“硬件配置”部分,在 EC2 实例类型字段中选择 m3.xlarge,并将其他设置保留为默认值。单击“下一步”按钮。
在“安全和访问”部分,对于 EC2 密钥对,从 EC2 密钥对字段中的列表中选择该对,并将其他设置保留为默认值。
在“引导操作”部分,将字段保留为默认设置,然后单击“添加”按钮。引导操作是在每个集群节点上启动 Hadoop 之前的设置期间执行的脚本。
在“步骤”部分,将设置保留为默认值并继续。
单击“创建集群”按钮,将打开“集群详细信息”页面。在这里,我们应该运行 Hive 脚本作为集群步骤,并使用 Hue Web 界面查询数据。
步骤 4 - 使用以下步骤运行 Hive 脚本。
打开 Amazon EMR 控制台并选择所需的集群。
移动到“步骤”部分并展开它。然后单击“添加步骤”按钮。
将打开“添加步骤”对话框。填写所需字段,然后单击“添加”按钮。
要查看 Hive 脚本的输出,请使用以下步骤:
打开 Amazon S3 控制台并选择用于输出数据的 S3 存储桶。
选择输出文件夹。
查询将结果写入一个单独的文件夹中。选择os_requests。
输出存储在文本文件中。可以下载此文件。
Amazon EMR 的优势
以下是 Amazon EMR 的优势:
易于使用 - Amazon EMR 易于使用,即易于设置集群、Hadoop 配置、节点预置等。
可靠 - 从可靠性方面来说,它会重试失败的任务并自动替换性能不佳的实例。
弹性 - Amazon EMR 允许计算大量实例以按任何规模处理数据。它可以轻松增加或减少实例数量。
安全 - 它会自动配置 Amazon EC2 防火墙设置、控制对实例的网络访问、在 Amazon VPC 中启动集群等。
灵活 - 它允许完全控制集群并访问每个实例的根访问权限。它还允许安装其他应用程序并根据需要自定义集群。
经济高效 - 其定价易于估算。它按小时对使用的每个实例收费。