机器学习 - 百分位数

百分位数是机器学习中用于描述数据集分布的统计概念。百分位数是一种度量，表示一组观测值中低于给定百分比的观测值的数值。

例如，第25个百分位数（也称为第一四分位数）是数据集观测值中低于25%的数值，而第75个百分位数（也称为第三四分位数）是数据集观测值中低于75%的数值。

百分位数可以用来总结数据集的分布并识别异常值。在机器学习中，百分位数经常用于数据预处理和探索性数据分析以获得对数据的洞察。

Python 提供了几个用于计算百分位数的库，包括 NumPy 和 Pandas。

使用 NumPy 计算百分位数

下面是一个使用 NumPy 计算百分位数的示例：

示例

import numpy as np

data = np.array([1, 2, 3, 4, 5])
p25 = np.percentile(data, 25)
p75 = np.percentile(data, 75)
print('25th percentile:', p25)
print('75th percentile:', p75)

在这个示例中，我们使用 NumPy 创建一个样本数据集，然后使用np.percentile()函数计算第25个和第75个百分位数。

输出

输出显示数据集的百分位数的值。

25th percentile: 2.0
75th percentile: 4.0

使用 Pandas 计算百分位数

下面是一个使用 Pandas 计算百分位数的示例：

示例

import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
p25 = data.quantile(0.25)
p75 = data.quantile(0.75)

print('25th percentile:', p25)
print('75th percentile:', p75)

在这个示例中，我们创建一个 Pandas Series 对象，然后使用 Series 对象的quantile()方法计算第25个和第75个百分位数。

输出

输出显示数据集的百分位数的值。

25th percentile: 2.0
75th percentile: 4.0

打印页面