更新于 2022 年 8 月 25 日 12:29:12
516 次浏览
RDD 的全称是分布式数据库。Spark 性能基于此不明确的集合,让其可以一以贯之地应对大数据处理条件,包括 MapReduce、流、SQL、机器学习、图形等。Spark 支持多种编程语言,包括 Scala、Python 和 R。RDD 也支持维护这些语言中的素材。如何创建 RDD Spark 在多处支持 RDD 架构,包括本地文件系统、HDFS 文件系统、内存和 HBase。对于本地文件系统,我们可以通过以下方式创建 RDD:val distFile = sc.textFile("file:///user/root/rddData.txt") 默认情况下,Spark 会采用 ... 了解更多