如何使用Pandas创建相关矩阵?


相关性分析是数据分析中一项至关重要的技术,有助于识别数据集变量之间的关系。相关矩阵是一个表格,显示数据集变量之间的相关系数。它是一个强大的工具,可以提供对数据中潜在模式的宝贵见解,并广泛应用于许多领域,包括金融、经济学、社会科学和工程学。

在本教程中,我们将探讨如何使用Pandas(Python中一个流行的数据处理库)创建相关矩阵。

要使用pandas生成相关矩阵,必须遵循以下步骤:

  • 获取数据

  • 构建pandas DataFrame

  • 使用pandas生成相关矩阵

示例

现在让我们研究不同的例子,了解如何使用pandas创建相关矩阵。

此代码演示如何使用Python中的pandas库从给定数据集创建相关矩阵。数据集包含三个变量:三个不同时间段的销售额、支出和利润。代码使用数据创建一个pandas DataFrame,然后使用DataFrame创建一个相关矩阵。

然后提取并显示销售额与支出以及销售额与利润之间的相关系数以及相关矩阵。相关系数表示两个变量之间的相关程度,“1”表示完全正相关,“-1”表示完全负相关,“0”表示无相关。

请考虑以下代码。

# Import the pandas library
import pandas as pd

# Create a dictionary containing the data to be used in the correlation analysis 
data = {
   'Sales': [25, 36, 12], # Values for sales in three different time periods
   'Expenses': [30, 25, 20], # Values for expenses in the same time periods
   'Profit': [15, 20, 10] # Values for profit in the same time periods
}

# Create a pandas DataFrame using the dictionary
sales_data = pd.DataFrame(data)

# Use the DataFrame to create a correlation matrix
correlation_matrix = sales_data.corr()

# Display the correlation matrix
print("Correlation Matrix:")
print(correlation_matrix)

# Get the correlation coefficient between Sales and Expenses
sales_expenses_correlation = correlation_matrix.loc['Sales', 'Expenses']

# Get the correlation coefficient between Sales and Profit
sales_profit_correlation = correlation_matrix.loc['Sales', 'Profit']

# Display the correlation coefficients
print("Correlation Coefficients:")
print(f"Sales and Expenses: {sales_expenses_correlation:.2f}")
print(f"Sales and Profit: {sales_profit_correlation:.2f}") 

输出

执行后,您将获得以下输出:

Correlation Matrix:
              Sales   Expenses     Profit
Sales      1.000000   0.541041   0.998845
Expenses   0.541041   1.000000   0.500000
Profit     0.998845   0.500000   1.000000
Correlation Coefficients:
Sales and Expenses: 0.54
Sales and Profit: 1.00

对角线上的值表示变量与其自身的相关性,因此对角线值表示相关性为1。

示例

让我们探索另一个例子。请考虑以下代码。

在这个例子中,我们创建了一个包含三列和三行的简单DataFrame。然后,我们在DataFrame上使用.corr()方法计算相关矩阵,最后将相关矩阵打印到控制台。

# Import the pandas library
import pandas as pd

# Create a sample data frame
data = {
   'A': [1, 2, 3],
   'B': [4, 5, 6],
   'C': [7, 8, 9]
}
df = pd.DataFrame(data)

# Create the correlation matrix
corr_matrix = df.corr()

# Display the correlation matrix
print(corr_matrix) 

输出

执行后,您将获得以下输出:

     A    B    C
A  1.0  1.0  1.0
B  1.0  1.0  1.0
C  1.0  1.0  1.0 

结论

总之,使用Python中的pandas创建相关矩阵是一个简单的过程。首先,使用所需数据创建一个pandas DataFrame,然后使用.corr()方法计算相关矩阵。生成的相关矩阵提供了对不同变量之间关系的宝贵见解,对角线值表示每个变量与其自身的相关性。

相关系数范围为-1到1,其中越接近-1或1的值表示相关性越强,而越接近0的值表示相关性越弱或无相关性。相关矩阵可用于广泛的应用,例如数据分析、金融和机器学习。

更新于:2023年4月20日

1000+ 次浏览

启动您的职业生涯

完成课程获得认证

开始学习
广告