Azure Databricks入门
微软的Azure Databricks和Azure机器学习旨在简化开发大规模数据分析的过程,无需使用显式编程语言或管理大量的R或Python代码。您可以使用这些工具运行分析和AI作业,并简化云环境中的数据分析和管理。
Azure Databricks起源于微软将数据科学功能集成到Azure云平台的决定。微软并没有急于推出这项服务。然而,微软公司开发了一个包含许多专家驱动功能的套件,包括一个编程接口,用于设计、训练和运行人工智能和分析作业。
由于云计算在数据和分析公司运营中占据着举足轻重的地位,微软将其Databricks服务从Azure迁移到了Azure公有云,以便任何Azure订阅者都可以使用这项技术。它还将功能从无服务器资源管理器迁移到了微软的开放数据服务,这是Azure Databricks的核心构建块。
Azure Databricks
Azure Databricks湖仓一体平台提供了一套统一的工具,用于构建、部署、共享和维护大规模的企业级数据解决方案。它与云帐户中的分布式存储和安全集成,并代表您管理和部署云基础设施。
Azure Databricks如何与Azure协同工作?
Azure Databricks平台架构由两个主要部分组成:Azure Databricks用于交付、配置和管理平台和服务的框架,以及与Azure Databricks和您的组织协同管理的客户拥有的基础设施。
与许多企业数据库解决方案不同,Azure Databricks不会强制您将数据迁移到专有存储系统才能使用该平台。
相反,您可以通过在Azure Databricks平台和您的云存储之间配置安全的集成来配置Azure Databricks工作区。然后,Azure Databricks会部署使用您帐户中云资源的临时计算集群,以处理和存储对象存储和其他您控制的集成服务中的数据。
Azure Databricks的用途是什么?
我们的客户使用Azure Databricks来处理、存储、清理、共享、分析、建模和转换其数据集,解决方案涵盖从BI到AI的各种应用。您可以使用Azure Databricks平台构建各种跨越不同数据角色的应用程序。
Azure Databricks工作区提供了许多核心数据任务的UI,包括以下工具:
- 使用Git进行源代码控制
- 交互式笔记本
- 特征存储
- 工作流调度器和管理器
- 机器学习模型服务
- SQL编辑器和仪表板
- 机器学习(ML)实验跟踪
- 数据摄取和治理
- 计算管理
- 数据发现、标注和探索
创建Azure Databricks资源
要使用Azure Databricks,您必须首先在Azure订阅中部署Azure Databricks工作区。创建一个集群,您可以在其上运行笔记本并执行代码。然后,您可以上传笔记本和数据来试用工作区。
部署Azure Databricks工作区
等待工作区创建完成。工作区创建需要几分钟时间。在工作区创建期间,门户会在右侧显示Azure Databricks平铺的部署情况。您可以观察任一区域的进度。屏幕顶部还会显示一个进度条。
创建集群
创建Azure Databricks工作区资源后,请在门户中转到该资源,然后选择“启动工作区”以在新选项卡中打开您的Databricks工作区。
在Databricks工作区的左侧菜单中,选择“计算”,然后按“+ 创建集群”添加一个具有以下规范的新集群:
名称:输入唯一名称。
集群模式:单节点
Databricks运行时版本:选择最新运行时版本的ML版本,而不是标准运行时版本。确保选择的ML版本:
节点类型:Standard_DS3_v2
不使用GPU
包含Scala > 2.11
空闲120分钟后终止
包含Spark > 3.0
选择“创建集群”
您的集群将在几分钟内准备好。集群将自动启动,集群名称旁边的“挂起旋转”指示器将变为实心绿色圆圈,显示“正在运行”状态。
上传数据
下载下面的文件,并将其另存为nyc-taxi.csv到任意文件夹。
https://raw.githubusercontent.com/MicrosoftLearning/dp-090-databricks-ml/master/data/nyc-taxi.csv
在Databricks工作区的“数据”页面上选择“创建表”。
在“文件”区域中,选择“浏览”并浏览到您下载的nyc-taxi.csv文件。
将文件上传到工作区后,选择“使用UI创建表”。
选择已创建的集群并预览表。单击“创建表”。
表创建后,您可以在工作区中查看它。
导入Databricks笔记本
在Azure Databricks工作区中,使用左侧的命令栏选择“工作区”。然后选择“用户”和your_user_name。
在出现的刀片中,选择名称旁边的向下箭头,然后选择“导入”以导入它。
在“导入笔记本”对话框中,从以下URL导入笔记本存档,请注意,将创建一个包含一个或多个笔记本的文件夹,其名称与存档名称相同:
再次重复上述步骤以导入笔记本存档。对于每个导入的存档,都会创建一个文件夹。
结论
微软在其已建立的基础上不断改进其服务。一个重要的关注领域是交互性和文档。Azure Databricks工作区文档和示例代码得到了大幅更新,微软还计划改进Azure ML建模器和PubSub的文档。微软还在投资培训,以支持Databricks成为构建AI模型、数据工程作业和整体数据分析工作流程的认可平台。