机器学习 - 百分位数



百分位数是机器学习中用于描述数据集分布的统计概念。百分位数是一种度量,它指示在观测值组中低于该度量的观测值的百分比。

例如,第 25 个百分位数(也称为第一四分位数)是数据集观测值中 25% 低于的值,而第 75 个百分位数(也称为第三四分位数)是数据集观测值中 75% 低于的值。

百分位数可用于总结数据集的分布并识别异常值。在机器学习中,百分位数通常用于数据预处理和探索性数据分析,以深入了解数据。

Python 提供了几个用于计算百分位数的库,包括 NumPy 和 Pandas。

使用 NumPy 计算百分位数

以下是如何使用 NumPy 计算百分位数的示例 -

示例

import numpy as np

data = np.array([1, 2, 3, 4, 5])
p25 = np.percentile(data, 25)
p75 = np.percentile(data, 75)
print('25th percentile:', p25)
print('75th percentile:', p75)

在此示例中,我们使用 NumPy 创建了一个样本数据集,然后使用 **np.percentile()** 函数计算第 25 个和第 75 个百分位数。

输出

输出显示了数据集的百分位数的值。

25th percentile: 2.0
75th percentile: 4.0

使用 Pandas 计算百分位数

以下是如何使用 Pandas 计算百分位数的示例 -

示例

import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
p25 = data.quantile(0.25)
p75 = data.quantile(0.75)

print('25th percentile:', p25)
print('75th percentile:', p75)

在此示例中,我们创建了一个 Pandas 系列对象,然后使用系列对象的 **quantile()** 方法计算第 25 个和第 75 个百分位数。

输出

输出显示了数据集的百分位数的值。

25th percentile: 2.0
75th percentile: 4.0
广告