Pandas 中根据指定列选择有限行


Pandas 是一个 Python 包,现在已成为全球数据科学家和分析师的首选工具。从数据框中选择行和列是其众多数据操作和分析功能之一。本文以实际示例探讨了如何使用 Pandas 选择具有特定列的一组行。

虽然我们强调了 Pandas 的一个特定功能,但请记住,该库的功能远不止于此,使其成为数据处理的关键工具。

Pandas DataFrame:简介

对于 Python,Pandas 提供了一种快速、用户友好的数据结构(DataFrame)和数据分析工具。“Pandas”这个名称来源于计量经济学中使用的术语“面板数据”,指的是包含多个时间段内相同人员的观察结果的数据集。

在 Pandas 中根据指定列选择有限行

在数据分析中,经常需要从 DataFrame 中选择特定的行和列。在您只对分析或修改完整数据集的一部分感兴趣的情况下,这可能很有帮助。以下是一些使用 Pandas 库从一组列中选择有限数量的行的方法

方法 1:使用 iloc 和 loc 方法

可以分别根据其整数索引和标签使用 iloc 和 loc 方法选择行和列。

示例 1:使用 iloc

import pandas as pd

# Create a simple dataframe
data = {
   'Name': ['John', 'Anna', 'Peter', 'Linda', 'Mike'],
   'Age': [28, 24, 35, 32, 30],
   'City': ['New York', 'Paris', 'Berlin', 'London', 'Sydney']
}

df = pd.DataFrame(data)

# Select the first three rows from the 'Name' and 'Age' columns
subset = df.iloc[:3, [0, 1]]
print(subset)

输出

    Name  Age
0   John   28
1   Anna   24
2  Peter   35

示例 2:使用 loc

# Select the first three rows from the 'Name' and 'Age' columns
subset = df.loc[:2, ['Name', 'Age']]
print(subset)

方法 2:使用布尔索引

您可以根据 DataFrame 的实际值使用布尔索引选择行。

示例 3:使用布尔索引

# Select rows where 'Age' is greater than 30 and only show 'Name' and 'City' columns
subset = df[df['Age'] > 30][['Name', 'City']]
print(subset)

结论

Pandas 通过提供仅选择具有特定列的少量行的选项,为数据操作和分析提供了灵活的工具包。无论您是在进行探索性数据分析还是准备机器学习的数据,理解如何有效地选择数据都至关重要。

请记住,您可以使用 Pandas 执行的操作远不止这些示例中所示的操作。该库的广泛功能远远超出此范围,允许执行更复杂的数据处理和分析任务。

提出正确的问题并了解如何从更大的数据集中提取正确的数据子集对于进行良好的数据分析至关重要。借助 pandas,您可以做到这一点!

更新于: 2023-07-18

113 次浏览

开启你的 职业生涯

通过完成课程获得认证

立即开始
广告