Pyspark 初学者课程
Pyspark 入门。大数据处理初学者课程
讲座 -16
资源 -1
时长 -2 小时
终身访问
课程描述
Pyspark是Apache Spark和Python合作开发的用于大数据计算的工具。Apache Spark是一个用Scala编写的开源集群计算框架,用于大规模数据处理,由加州大学伯克利分校的AMP实验室开发,而Python是一种高级编程语言。Spark最初是用Scala编写的,由于行业应用的需要,其框架PySpark后来通过Py4J移植到Python。Py4J是一个内建于PySpark的Java库,它帮助Python动态地与JVM对象交互;因此,要运行PySpark,除了Python和Apache Spark之外,还必须启用Java。
PySpark入门步骤
- 连接集群是Spark的第一步(一群位于远程位置的节点,其中主节点将数据分配给工作节点,所有工作节点将数据计算结果报告给主节点)。这就像构建Spark Context类的对象/实例以绑定到集群一样简单。
- 您可以使用SparkContext类生成一个SparkSession对象,该对象充当与集群关系的拦截器。创建多个SparkSessions会导致问题。
- pyspark.sql — 可以从中导入SparkSession对象的模块。
- SparkSession.builder.getOrCreate() — 如果存在当前SparkSession,则此函数会恢复它;如果不存在,则会创建一个新的。
课程大纲
查看课程详细内容分解
简介
1 个讲座
- PySpark 简介 09:10 09:10
使用RDD进行编程
13 节课
讲师 详情
Corporate Bridge Consultancy Private Limited (公司桥梁咨询私人有限公司)
课程 证书
使用您的证书来改变职业或在您目前的职业中提升。