- Python Pandas 教程
- Python Pandas - 首页
- Python Pandas - 简介
- Python Pandas - 环境搭建
- Python Pandas - 基础
- Python Pandas - 数据结构简介
- Python Pandas - 索引对象
- Python Pandas - 面板 (Panel)
- Python Pandas - 基本功能
- Python Pandas - 索引与数据选择
- Python Pandas - Series
- Python Pandas - Series
- Python Pandas - Series 对象切片
- Python Pandas - Series 对象的属性
- Python Pandas - Series 对象的算术运算
- Python Pandas - Series 转换为其他对象
- Python Pandas - DataFrame
- Python Pandas - DataFrame
- Python Pandas - 访问 DataFrame
- Python Pandas - DataFrame 对象切片
- Python Pandas - 修改 DataFrame
- Python Pandas - 从 DataFrame 中删除行
- Python Pandas - DataFrame 的算术运算
- Python Pandas - I/O 工具
- Python Pandas - I/O 工具
- Python Pandas - 使用 CSV 格式
- Python Pandas - 读取和写入 JSON 文件
- Python Pandas - 从 Excel 文件读取数据
- Python Pandas - 将数据写入 Excel 文件
- Python Pandas - 使用 HTML 数据
- Python Pandas - 剪贴板
- Python Pandas - 使用 HDF5 格式
- Python Pandas - 与 SQL 的比较
- Python Pandas - 数据处理
- Python Pandas - 排序
- Python Pandas - 重新索引
- Python Pandas - 迭代
- Python Pandas - 级联 (Concatenation)
- Python Pandas - 统计函数
- Python Pandas - 描述性统计
- Python Pandas - 处理文本数据
- Python Pandas - 函数应用
- Python Pandas - 选项和自定义
- Python Pandas - 窗口函数
- Python Pandas - 聚合
- Python Pandas - 合并/连接
- Python Pandas - 多索引 (MultiIndex)
- Python Pandas - 多索引基础
- Python Pandas - 使用多索引进行索引
- Python Pandas - 使用多索引进行高级重新索引
- Python Pandas - 重命名多索引标签
- Python Pandas - 对多索引排序
- Python Pandas - 二元运算
- Python Pandas - 二元比较运算
- Python Pandas - 布尔索引
- Python Pandas - 布尔掩码
- Python Pandas - 数据重塑和透视
- Python Pandas - 透视表
- Python Pandas - 堆叠和取消堆叠
- Python Pandas - 熔化 (Melting)
- Python Pandas - 计算虚拟变量
- Python Pandas - 类别数据
- Python Pandas - 类别数据
- Python Pandas - 类别数据的排序和分类
- Python Pandas - 比较类别数据
- Python Pandas - 处理缺失数据
- Python Pandas - 缺失数据
- Python Pandas - 填充缺失数据
- Python Pandas - 缺失值的插值
- Python Pandas - 删除缺失数据
- Python Pandas - 使用缺失数据进行计算
- Python Pandas - 处理重复项
- Python Pandas - 重复数据
- Python Pandas - 计数与检索唯一元素
- Python Pandas - 重复标签
- Python Pandas - 分组与聚合
- Python Pandas - GroupBy
- Python Pandas - 时间序列数据
- Python Pandas - 日期功能
- Python Pandas - 时间增量 (Timedelta)
- Python Pandas - 稀疏数据结构
- Python Pandas - 稀疏数据
- Python Pandas - 数据可视化
- Python Pandas - 数据可视化
- Python Pandas - 其他概念
- Python Pandas - 警告与陷阱
- Python Pandas 有用资源
- Python Pandas - 快速指南
- Python Pandas - 有用资源
- Python Pandas - 讨论
Python Pandas - 计数与检索唯一元素
在处理实时数据时,我们经常会遇到重复条目,这些条目是在数据集中多次出现的数据行或实体。重复数据可能由多种原因引起,例如数据收集错误、重复记录或数据集合并。从重复数据中计数和识别唯一元素是数据预处理和数据分析中的一项重要任务。
在本教程中,我们将学习如何使用 Pandas 计数和检索重复数据中的唯一元素。Pandas 提供了两个主要函数,**nunique()** 和 **unique()**,分别用于计数和检索唯一元素。
计数唯一元素
Pandas 的 **DataFrame.nunique()** 方法用于沿 DataFrame 的特定轴计算不同元素的数量。它可以按行或按列应用,也可以选择忽略 NaN 值。
语法
以下是语法:
DataFrame.nunique(axis=0, dropna=True)
其中:
**axis**: 定义是按行 (axis=1) 还是按列 (axis=0,默认) 计数唯一元素。
**dropna**: 设置为 True (默认) 时,它会忽略计数中的 NaN 值。
示例:按列计数唯一元素
这是一个基本的示例,演示了 **DataFrame.nunique()** 方法用于计算 Pandas DataFrame 的列唯一值。
import pandas as pd
# Creating a DataFrame
df = pd.DataFrame({'A': [4, 5, 6],'B': [4, 1, 1]})
# Display the Original DataFrame
print("Original DataFrame:")
print(df)
# Counting unique values column-wise
result = df.nunique()
print('Column wise count of the unique elements:\n', result)
以上代码的输出如下:
Original DataFrame:
| A | B | |
|---|---|---|
| 0 | 4 | 4 |
| 1 | 5 | 1 |
| 2 | 6 | 1 |
这里,A 列有 3 个唯一值,而 B 列有 2 个唯一值。
示例:按行计数唯一值
此示例演示了 **DataFrame.nunique()** 方法用于计算 Pandas DataFrame 的行唯一值。通过将 axis 参数设置为 1,也可以按行计数唯一值。
import pandas as pd
# Creating a DataFrame
df = pd.DataFrame({'A': [4, 5, 6],'B': [4, 1, 1]})
# Display the Original DataFrame
print("Original DataFrame:")
print(df)
# Counting unique values row-wise
result = df.nunique(axis=1)
print('\nRow wise count of the unique elements:\n', result)
以上代码的输出如下:
Original DataFrame:
| A | B | |
|---|---|---|
| 0 | 4 | 4 |
| 1 | 5 | 1 |
| 2 | 6 | 1 |
使用 value_counts() 计数唯一值
pandas 的 **DataFrame.value_counts()** 方法用于获取有关唯一值的更详细信息。它返回一个 Series,其中包含按降序排列的唯一值的计数。
示例
此示例使用 **DataFrame.value_counts()** 方法计算 DataFrame 列中的唯一值。
import pandas as pd
# Creating a DataFrame
df = pd.DataFrame({'A': [4, 5, 6],'B': [4, 1, 1]})
# Display the Original DataFrame
print("Original DataFrame:")
print(df)
# Count the frequency of unique values in column 'B'
result = df['B'].value_counts()
print('\nThe unique values:')
print(result)
以上代码的输出如下:
Original DataFrame:
| A | B | |
|---|---|---|
| 0 | 4 | 4 |
| 1 | 5 | 1 |
| 2 | 6 | 1 |
检索唯一元素
**pandas.unique()** 函数用于从 DataFrame 的单个列或 Series 中获取唯一值的数组。与计算唯一值的 **nunique()** 不同,**unique()** 直接返回这些唯一值。
语法
以下是语法:
pandas.unique(values)
其中,**values** 是一个可以是一维数组状结构(例如 Series 或 DataFrame 列)的单个参数。
示例
以下示例使用 **pandas.unique()** 函数从 Pandas DataFrame 列中获取所有唯一元素。
import pandas as pd
# Creating a DataFrame
df = pd.DataFrame({'A': [4, 5, 6],'B': [4, 1, 1]})
# Display the Original DataFrame
print("Original DataFrame:")
print(df)
# Get unique values from a column
result= pd.unique(df['A'])
print('\nThe unique values:\n', result)
以上代码的输出如下:
Original DataFrame:
| A | B | |
|---|---|---|
| 0 | 4 | 4 |
| 1 | 5 | 1 |
| 2 | 6 | 1 |