找到关于 Pandas 的507 篇文章

如何将 Pandas 转换为 PySpark DataFrame?

Mukul Latiyan
更新于 2023年4月18日 14:51:05

6000+ 次浏览

Pandas 和 PySpark 是 Python 中两种流行的数据处理工具。Pandas 非常适合处理单机上的小型到中型数据集,而 PySpark 则设计用于跨多台机器分布式处理大型数据集。当您需要扩展数据处理以处理更大的数据集时,可能需要将 pandas DataFrame 转换为 PySpark DataFrame。在本指南中,我们将探讨使用 Python 中的 PySpark 库将 pandas DataFrame 转换为 PySpark DataFrame 的过程。我们将介绍安装和设置 PySpark、将 pandas DataFrame 转换... 阅读更多

使用布尔模型和向量空间模型进行文档检索

Mithilesh Pradhan
更新于 2023年3月23日 16:21:37

6000+ 次浏览

引言 机器学习中的文档检索是信息检索更大方面的一部分,在该方面,系统尝试根据用户的查询找到与搜索查询相关的文档,并按相关性或匹配程度对其进行排序。文档检索有不同的方法,两种流行的方法是:布尔模型、向量空间模型。让我们简要了解上述每种方法。布尔模型 它是一种基于集合的检索模型。用户查询采用布尔形式。使用 AND、OR、NOT 等连接查询。文档... 阅读更多

如何在 Pandas 中将组级汇总统计信息添加为新列?

Manas Gupta
更新于 2023年3月23日 15:18:07

212 次浏览

Pandas 是一个非常流行的数据处理库,经常用于数据操作和分析。Pandas 库提供了强大的分析功能,例如分组分析具有某些共同特征的各种样本。在本文中,我们将学习如何将通过样本组获得的这些汇总统计信息作为新列添加到我们现有的 Pandas 数据框中。注意 - 本文中的代码是在 Jupyter Notebook 上运行的。让我们从导入 Pandas 开始。import pandas as pd 示例以下是我们将要处理的样本数据集。它包含 3 列,存储... 阅读更多

如何向 Pandas 数据框添加标题行?

Manas Gupta
更新于 2023年3月23日 15:13:30

7000+ 次浏览

Pandas 是 Python 中一个非常流行的数据处理和操作库,经常用于数据分析和数据预处理。Pandas 库具有一个强大的数据结构,称为 Pandas 数据框,用于存储任何类型的二维数据。在本文中,我们将学习向 Pandas 数据框添加标题行(或简称列名)的各种方法。注意 - 本文中的代码已在 Jupyter Notebook 上进行了测试。我们将看到如何通过 5 种不同的方式添加标题行 - 创建数据框时添加标题行... 阅读更多

Pandas Series 与单列 DataFrame

Premansh Sharma
更新于 2023年3月10日 14:09:06

11000+ 次浏览

引言 本文比较和对比了 Python 的 Pandas 库的单列 DataFrame 和 Pandas Series 数据结构。本文的目标是清楚地解释这两种数据结构、它们的异同。为了帮助读者为其特定用例选择最佳方案,它包含这两种结构之间的比较以及关于数据类型、索引、切片和性能等方面的实际示例。本文适合已经熟悉 Pandas 并希望更深入地了解这两种关键数据结构的初级和中级 Python 程序员。什么是 Pandas?... 阅读更多

如何从数据集中选择重要变量?

Parth Shukla
更新于 2023年1月16日 16:07:11

1000+ 次浏览

引言 在机器学习中,数据特征是影响模型性能最主要的因素之一。数据的特征或变量应该具有信息量并且足够好,可以将其馈送到机器学习算法中,因为据指出,即使提供少量高质量的数据,模型也能获得最佳性能。传统的机器学习算法在提供更多数据时性能更好。尽管如此,在达到某个值或数据数量之后,模型的性能会保持不变,不会再提高。这就是选择... 阅读更多

成本函数中使用的目录信息

Raunak Jain
更新于 2023年1月16日 15:57:04

697 次浏览

引言 在创建成本函数时,目录信息是可用于优化模型性能的关键数据。在本文中,我们将探讨如何在成本函数中使用目录信息、可用的不同类型的目录信息以及如何在代码中实现这一点。什么是目录信息?目录信息是指描述公司销售的产品或商品的数据。此信息可能包括产品名称、说明、价格和图像等内容。这些数据通常存储在数据库中,并且... 阅读更多

构建数据仓库

Raunak Jain
更新于 2023年1月10日 18:30:45

488 次浏览

数据仓库是用于报告和分析的集成数据的中心存储库。它存储大量历史和当前数据,并能够为分析目的提供快速的查询性能。数据仓库可用于支持业务决策、提高运营效率和获得竞争优势。在本文中,我们将讨论从头开始构建数据仓库的过程。了解数据仓库的需求 在开始设计和构建数据仓库之前,了解业务需求和将要处理的数据类型非常重要。... 阅读更多

使用 Dask 进行并行计算

Prerna Tiwari
更新于 2023年1月9日 16:08:30

493 次浏览

Dask 是一个灵活的开源 Python 库,用于并行计算。在本文中,我们将学习并行计算以及为什么我们应该为此选择 Dask。我们将将其与 Spark、Ray 和 Modin 等其他各种库进行比较。我们还讨论了 Dask 的用例。并行计算 一种称为并行计算的计算类型同时执行多个计算或过程。大型问题通常被分解成可管理的部分,这些部分可以单独解决。并行计算的四大类是位级、指令级、数据级、作业并行。... 阅读更多

使用电子表格进行数据分析

Prerna Tiwari
更新于 2023年1月9日 16:30:14

582 次浏览

清洗、转换和分析原始数据是获得有用、相关信息的第一步,这些信息可以帮助企业做出明智的结论。通过提供相关的资料和事实(通常以图表、图片、表格和图形的形式呈现),该策略有助于降低决策相关的风险。数据分析关注的是将未经处理的数据转换成相关的统计数据、知识和解释的过程。数据分析是一项重要的技能,可以支持更有效的决策。电子表格是数据分析最常用的工具,内置的透视表是最流行的分析工具。... 阅读更多

广告