Tutorialspoint

黑色星期五,史无前例最低价! 使用优惠码:BFS8

Pyspark 初学者课程

Pyspark 初学者课程

Pyspark 入门。大数据处理初学者课程

更新于图标 更新于 2024 年 11 月

语言图标 语言 - 英语

个人图标 Corporate Bridge Consultancy Private Limited

英语 [CC]

类别图标 开发,数据科学,

讲座 -16

资源 -1

时长 -2 小时

终身访问

4.6

price-loader

终身访问

30 天 退款保证

培训5人或以上?

让您的团队随时随地访问10000多门Tutorials Point顶级课程。

课程描述

Pyspark是Apache Spark和Python合作开发的用于大数据计算的工具。Apache Spark是一个用Scala编写的开源集群计算框架,用于大规模数据处理,由加州大学伯克利分校的AMP实验室开发,而Python是一种高级编程语言。Spark最初是用Scala编写的,由于行业应用的需要,其框架PySpark后来通过Py4J移植到Python。Py4J是一个内建于PySpark的Java库,它帮助Python动态地与JVM对象交互;因此,要运行PySpark,除了Python和Apache Spark之外,还必须启用Java。

PySpark入门步骤

  • 连接集群是Spark的第一步(一群位于远程位置的节点,其中主节点将数据分配给工作节点,所有工作节点将数据计算结果报告给主节点)。这就像构建Spark Context类的对象/实例以绑定到集群一样简单。
  • 您可以使用SparkContext类生成一个SparkSession对象,该对象充当与集群关系的拦截器。创建多个SparkSessions会导致问题。
  •  pyspark.sql — 可以从中导入SparkSession对象的模块。
  • SparkSession.builder.getOrCreate() — 如果存在当前SparkSession,则此函数会恢复它;如果不存在,则会创建一个新的。
Pyspark Beginner Course

课程大纲

查看课程详细内容分解

简介
1 个讲座
  • 播放图标 PySpark 简介 09:10 09:10
Tutorialspoint
使用RDD进行编程
13 节课
Tutorialspoint

讲师 详情

Corporate Bridge Consultancy Private Limited

Corporate Bridge Consultancy Private Limited (公司桥梁咨询私人有限公司)

课程 证书

使用您的证书来改变职业或在您目前的职业中提升。

sample Tutorialspoint certificate

我们的学生与
最好的 企业 合作

相关视频课程

查看更多

年度会员

成为Tutorials Point的尊贵会员,享受我们海量顶级视频课程的无限访问权限。

立即订阅
Annual Membership

在线认证

掌握知名技术,成为受人尊敬的认证专业人士。

立即探索
Online Certifications

联系我们

1800-202-0515