- Spark SQL 教程
- Spark SQL - 首页
- Spark - 简介
- Spark - RDD
- Spark - 安装
- Spark SQL - 简介
- Spark SQL - 数据帧
- Spark SQL - 数据源
- Spark SQL 有用资源
- Spark SQL - 快速指南
- Spark SQL - 有用资源
- Spark SQL - 讨论
Spark SQL - 数据源
DataFrame 接口允许不同的 DataSources 在 Spark SQL 上工作。这是一个临时表,可以作为普通的 RDD 运行。将 DataFrame 注册为表后,可以在其数据上运行 SQL 查询。
在本章中,我们将描述使用不同 Spark DataSources 加载和保存数据的一般方法。接下来,我们将详细讨论内置数据源的具体选项。
SparkSQL 中提供不同类型的数据源,以下列出其中一些 −
| 序号 | 数据源 |
|---|---|
| 1 | JSON 数据集
Spark SQL 可以自动获取 JSON 数据集的模式,并将其加载为 DataFrame。 |
| 2 | Hive 表
Hive 与 Spark 库捆绑在一起作为 HiveContext,后者继承自 SQLContext。 |
| 3 | Parquet 文件
Parquet 是一种列式格式,受很多数据处理系统支持。 |
广告