使用Python显示两个变量之间的Pearson相关性检验


Pearson相关性检验是一种简单的Python统计方法,用于衡量两个参数变量之间的关系。它有助于以图形方式衡量两个变量之间的关系,以便了解变量之间关系的强度以及它们是否相关。要找到Pearson相关性,我们可以使用`pearsonr()`函数。

其值介于-1和1之间,-1表示完全负相关,0表示无关系,1表示完全正相关。

语法

此语法用于以下所有示例。

pearsonr(variable1,variable2)

算法

  • 步骤1 − 导入模块和库。

  • 步骤2 − 定义变量或数据集。

var1=[ ]
var2=[ ] or
If you want to perform on csv file then
   df = pd.read_csv("file_name.csv") 
  • 步骤3 − 应用`pearsonr()`函数计算相关性检验。

  • 步骤4 − 现在打印结果。

方法1:这里我们使用变量来查找相关性

示例1

查找两个变量之间的Pearson相关性检验。

from scipy.stats import pearsonr

var1 = [2, 4, 6, 8]   #1st variable
var2 = [1, 3, 5, 7]   #2nd variable

# find Pearson correlation 
correlation,_ = pearsonr(var1, var2)

print('Pearson correlation:', correlation)

输出

Pearson correlation: 1.0

在此代码中,`pearsonr`函数从`scipy.stats`导入。创建了名为`var1`和`var2`的两个列表。使用`pearsonr()`函数计算`var1`和`var2`之间的Pearson相关性。为此,`pearsonr()`函数与`var1`和`var2`一起传递。Pearson相关性的值存储在`correlation`中。然后,将打印Pearson相关性。

示例2

查找两个变量之间的Pearson相关性检验。

from scipy.stats import pearsonr

var1 = [2.2, 4.6, 6.8, 7.8]   #1st variable
var2 = [1.3, 3.2, 5.6, 9.7]   #2nd variable

# find Pearson correlation 
correlation,_ = pearsonr(var1, var2)

print('Pearson correlation:', correlation)

输出

Pearson correlation: 0.9385130127002226

在此代码中,`pearsonr`函数从`scipy.stats`导入。这里我们创建了两个名为`var1`和`var2`的十进制列表。使用`pearsonr()`函数计算`var1`和`var2`之间的Pearson相关性。为此,`pearsonr()`函数与`var1`和`var2`一起传递。Pearson相关性的值存储在`correlation`中。然后,将打印Pearson相关性。

示例3

查找两个变量之间的Pearson相关性检验。

from scipy.stats import pearsonr

var1 = [-2, -5, -1, -7]   #1st variable
var2 = [-8, -3, -6, -9]   #2nd variable

# find Pearson correlation 
correlation,_ = pearsonr(var1, var2)

print('Pearson correlation:', correlation)

输出

Pearson correlation: 0.11437725271791938

在此代码中,`pearsonr`函数从`scipy.stats`导入。这里我们创建了两个包含负元素的列表(`var1`和`var2`)。使用`pearsonr()`函数计算`var1`和`var2`之间的Pearson相关性。为此,`pearsonr()`函数与`var1`和`var2`一起传递。Pearson相关性的值存储在`correlation`中。然后,将打印Pearson相关性。

示例4

查找两个变量之间的Pearson相关性检验。

from scipy.stats import pearsonr

var1 = [-2, 5, -1, -7]   #1st variable
var2 = [-4, -3, -6, 2]   #2nd variable

# find Pearson correlation 
correlation,_ = pearsonr(var1, var2)

print('Pearson correlation:', correlation)

输出

Pearson correlation: -0.5717997297136825

方法2:这里我们使用数据集来查找相关性

示例1

从给定的数据集查找Pearson相关性检验。

您可以从此处下载csv文件 - student_data

import pandas as pd
from scipy.stats import pearsonr
#adding datasets
df = pd.read_csv("student_clustering.csv")

# Convert dataframe into series
column1 = df['cgpa']
column2 = df['iq']

# find Pearson correlation 
correlation,_ = pearsonr(column1, column2)

print('Pearson correlation:', correlation)

输出

Pearson correlation: 0.5353007092636304  

#This value indicates a average or intermediate relationship between variables.

在此代码中,我们首先从源路径访问数据集(student_clustering.csv)。然后,我们从数据集中获取长度相同的数字列。现在我们应用Pearson相关性函数并找到相关性值。

示例2

从给定的数据集查找Pearson相关性检验。

您可以从此处下载csv文件 - cardata

import pandas as pd
from scipy.stats import pearsonr

#adding datasets
df = pd.read_csv("cardata.csv")

# Convert dataframe into series
column1 = df['Selling_Price']
column2 = df['Present_Price']

# find Pearson correlation 
correlation,_ = pearsonr(column1, column2)

print('Pearson correlation:', correlation)

输出

Pearson correlation: 0.8252819190808663  

#This value indicates a strong relationship between variables because it’s near by 1.

在此代码中,我们首先从源路径访问数据集(cardata.csv)。然后,我们从数据集中获取长度相同的数字列。现在我们应用Pearson相关性函数并找到相关性值。

结论

总而言之,Pearson相关性检验对于任何希望了解模式和相关性的数据工作者来说都是一项重要的工具。您可以使用Python和scipy库轻松运行此测试,并了解有关两个变量之间连接的模式和值的重要详细信息。

更新于:2023年9月29日

274次浏览

启动您的职业生涯

通过完成课程获得认证

开始
广告