Azure Databricks入门

微软的Azure Databricks和Azure机器学习旨在简化开发大规模数据分析的过程，无需使用显式编程语言或管理大量的R或Python代码。您可以使用这些工具运行分析和AI作业，并简化云环境中的数据分析和管理。

Azure Databricks起源于微软将数据科学功能集成到Azure云平台的决定。微软并没有急于推出这项服务。然而，微软公司开发了一个包含许多专家驱动功能的套件，包括一个编程接口，用于设计、训练和运行人工智能和分析作业。

由于云计算在数据和分析公司运营中占据着举足轻重的地位，微软将其Databricks服务从Azure迁移到了Azure公有云，以便任何Azure订阅者都可以使用这项技术。它还将功能从无服务器资源管理器迁移到了微软的开放数据服务，这是Azure Databricks的核心构建块。

Azure Databricks

Azure Databricks湖仓一体平台提供了一套统一的工具，用于构建、部署、共享和维护大规模的企业级数据解决方案。它与云帐户中的分布式存储和安全集成，并代表您管理和部署云基础设施。

Azure Databricks如何与Azure协同工作？

Azure Databricks平台架构由两个主要部分组成：Azure Databricks用于交付、配置和管理平台和服务的框架，以及与Azure Databricks和您的组织协同管理的客户拥有的基础设施。

与许多企业数据库解决方案不同，Azure Databricks不会强制您将数据迁移到专有存储系统才能使用该平台。

相反，您可以通过在Azure Databricks平台和您的云存储之间配置安全的集成来配置Azure Databricks工作区。然后，Azure Databricks会部署使用您帐户中云资源的临时计算集群，以处理和存储对象存储和其他您控制的集成服务中的数据。

Azure Databricks的用途是什么？

我们的客户使用Azure Databricks来处理、存储、清理、共享、分析、建模和转换其数据集，解决方案涵盖从BI到AI的各种应用。您可以使用Azure Databricks平台构建各种跨越不同数据角色的应用程序。

Azure Databricks工作区提供了许多核心数据任务的UI，包括以下工具：

使用Git进行源代码控制
交互式笔记本
特征存储
工作流调度器和管理器
机器学习模型服务
SQL编辑器和仪表板
机器学习（ML）实验跟踪
数据摄取和治理
计算管理
数据发现、标注和探索

创建Azure Databricks资源

要使用Azure Databricks，您必须首先在Azure订阅中部署Azure Databricks工作区。创建一个集群，您可以在其上运行笔记本并执行代码。然后，您可以上传笔记本和数据来试用工作区。

部署Azure Databricks工作区

等待工作区创建完成。工作区创建需要几分钟时间。在工作区创建期间，门户会在右侧显示Azure Databricks平铺的部署情况。您可以观察任一区域的进度。屏幕顶部还会显示一个进度条。

创建集群

创建Azure Databricks工作区资源后，请在门户中转到该资源，然后选择“启动工作区”以在新选项卡中打开您的Databricks工作区。

在Databricks工作区的左侧菜单中，选择“计算”，然后按“+ 创建集群”添加一个具有以下规范的新集群：

名称：输入唯一名称。

集群模式：单节点

Databricks运行时版本：选择最新运行时版本的ML版本，而不是标准运行时版本。确保选择的ML版本：

节点类型：Standard_DS3_v2

不使用GPU

包含Scala > 2.11

空闲120分钟后终止

包含Spark > 3.0

选择“创建集群”

您的集群将在几分钟内准备好。集群将自动启动，集群名称旁边的“挂起旋转”指示器将变为实心绿色圆圈，显示“正在运行”状态。

上传数据

下载下面的文件，并将其另存为nyc-taxi.csv到任意文件夹。

https://raw.githubusercontent.com/MicrosoftLearning/dp-090-databricks-ml/master/data/nyc-taxi.csv

在Databricks工作区的“数据”页面上选择“创建表”。

在“文件”区域中，选择“浏览”并浏览到您下载的nyc-taxi.csv文件。

将文件上传到工作区后，选择“使用UI创建表”。

选择已创建的集群并预览表。单击“创建表”。

表创建后，您可以在工作区中查看它。

导入Databricks笔记本

在Azure Databricks工作区中，使用左侧的命令栏选择“工作区”。然后选择“用户”和your_user_name。

在出现的刀片中，选择名称旁边的向下箭头，然后选择“导入”以导入它。

在“导入笔记本”对话框中，从以下URL导入笔记本存档，请注意，将创建一个包含一个或多个笔记本的文件夹，其名称与存档名称相同：

https://github.com/MicrosoftLearning/dp-090-databricks-ml/raw/master/01%20-%20Introduction%20to%20Azure%20Databricks.dbc

再次重复上述步骤以导入笔记本存档。对于每个导入的存档，都会创建一个文件夹。

结论

微软在其已建立的基础上不断改进其服务。一个重要的关注领域是交互性和文档。Azure Databricks工作区文档和示例代码得到了大幅更新，微软还计划改进Azure ML建模器和PubSub的文档。微软还在投资培训，以支持Databricks成为构建AI模型、数据工程作业和整体数据分析工作流程的认可平台。

Devang Delvadiya

更新于：2022年12月16日

2K+ 次浏览

启动您的职业生涯

完成课程获得认证

开始