Spark SQL - 数据源

DataFrame 接口允许不同的 DataSources 在 Spark SQL 上工作。这是一个临时表，可以作为普通的 RDD 运行。将 DataFrame 注册为表后，可以在其数据上运行 SQL 查询。

在本章中，我们将描述使用不同 Spark DataSources 加载和保存数据的一般方法。接下来，我们将详细讨论内置数据源的具体选项。

SparkSQL 中提供不同类型的数据源，以下列出其中一些 −

序号	数据源
1	JSON 数据集 Spark SQL 可以自动获取 JSON 数据集的模式，并将其加载为 DataFrame。
2	Hive 表 Hive 与 Spark 库捆绑在一起作为 HiveContext，后者继承自 SQLContext。
3	Parquet 文件 Parquet 是一种列式格式，受很多数据处理系统支持。

打印此页