Azure Databricks入门


微软的Azure Databricks和Azure机器学习旨在简化开发大规模数据分析的过程,无需使用显式编程语言或管理大量的R或Python代码。您可以使用这些工具运行分析和AI作业,并简化云环境中的数据分析和管理。

Azure Databricks起源于微软将数据科学功能集成到Azure云平台的决定。微软并没有急于推出这项服务。然而,微软公司开发了一个包含许多专家驱动功能的套件,包括一个编程接口,用于设计、训练和运行人工智能和分析作业。

由于云计算在数据和分析公司运营中占据着举足轻重的地位,微软将其Databricks服务从Azure迁移到了Azure公有云,以便任何Azure订阅者都可以使用这项技术。它还将功能从无服务器资源管理器迁移到了微软的开放数据服务,这是Azure Databricks的核心构建块。

Azure Databricks

Azure Databricks湖仓一体平台提供了一套统一的工具,用于构建、部署、共享和维护大规模的企业级数据解决方案。它与云帐户中的分布式存储和安全集成,并代表您管理和部署云基础设施。

Azure Databricks如何与Azure协同工作?

Azure Databricks平台架构由两个主要部分组成:Azure Databricks用于交付、配置和管理平台和服务的框架,以及与Azure Databricks和您的组织协同管理的客户拥有的基础设施。

与许多企业数据库解决方案不同,Azure Databricks不会强制您将数据迁移到专有存储系统才能使用该平台。

相反,您可以通过在Azure Databricks平台和您的云存储之间配置安全的集成来配置Azure Databricks工作区。然后,Azure Databricks会部署使用您帐户中云资源的临时计算集群,以处理和存储对象存储和其他您控制的集成服务中的数据。

Azure Databricks的用途是什么?

我们的客户使用Azure Databricks来处理、存储、清理、共享、分析、建模和转换其数据集,解决方案涵盖从BI到AI的各种应用。您可以使用Azure Databricks平台构建各种跨越不同数据角色的应用程序。

Azure Databricks工作区提供了许多核心数据任务的UI,包括以下工具:

  • 使用Git进行源代码控制
  • 交互式笔记本
  • 特征存储
  • 工作流调度器和管理器
  • 机器学习模型服务
  • SQL编辑器和仪表板
  • 机器学习(ML)实验跟踪
  • 数据摄取和治理
  • 计算管理
  • 数据发现、标注和探索

创建Azure Databricks资源

要使用Azure Databricks,您必须首先在Azure订阅中部署Azure Databricks工作区。创建一个集群,您可以在其上运行笔记本并执行代码。然后,您可以上传笔记本和数据来试用工作区。

部署Azure Databricks工作区

等待工作区创建完成。工作区创建需要几分钟时间。在工作区创建期间,门户会在右侧显示Azure Databricks平铺的部署情况。您可以观察任一区域的进度。屏幕顶部还会显示一个进度条。

创建集群

创建Azure Databricks工作区资源后,请在门户中转到该资源,然后选择“启动工作区”以在新选项卡中打开您的Databricks工作区。

在Databricks工作区的左侧菜单中,选择“计算”,然后按“+ 创建集群”添加一个具有以下规范的新集群:

名称:输入唯一名称。

集群模式:单节点

Databricks运行时版本:选择最新运行时版本的ML版本,而不是标准运行时版本。确保选择的ML版本:

节点类型:Standard_DS3_v2

不使用GPU

包含Scala > 2.11

空闲120分钟后终止

包含Spark > 3.0

选择“创建集群”

您的集群将在几分钟内准备好。集群将自动启动,集群名称旁边的“挂起旋转”指示器将变为实心绿色圆圈,显示“正在运行”状态。

上传数据

下载下面的文件,并将其另存为nyc-taxi.csv到任意文件夹。

https://raw.githubusercontent.com/MicrosoftLearning/dp-090-databricks-ml/master/data/nyc-taxi.csv

在Databricks工作区的“数据”页面上选择“创建表”。

在“文件”区域中,选择“浏览”并浏览到您下载的nyc-taxi.csv文件。

将文件上传到工作区后,选择“使用UI创建表”。

选择已创建的集群并预览表。单击“创建表”。

表创建后,您可以在工作区中查看它。

导入Databricks笔记本

在Azure Databricks工作区中,使用左侧的命令栏选择“工作区”。然后选择“用户”和your_user_name。

在出现的刀片中,选择名称旁边的向下箭头,然后选择“导入”以导入它。

在“导入笔记本”对话框中,从以下URL导入笔记本存档,请注意,将创建一个包含一个或多个笔记本的文件夹,其名称与存档名称相同:

https://github.com/MicrosoftLearning/dp-090-databricks-ml/raw/master/01%20-%20Introduction%20to%20Azure%20Databricks.dbc

再次重复上述步骤以导入笔记本存档。对于每个导入的存档,都会创建一个文件夹。

结论

微软在其已建立的基础上不断改进其服务。一个重要的关注领域是交互性和文档。Azure Databricks工作区文档和示例代码得到了大幅更新,微软还计划改进Azure ML建模器和PubSub的文档。微软还在投资培训,以支持Databricks成为构建AI模型、数据工程作业和整体数据分析工作流程的认可平台。

更新于:2022年12月16日

2K+ 次浏览

启动您的职业生涯

完成课程获得认证

开始
广告