Python中的相关性和回归
相关性是指涉及两个数据集之间依赖性的某些统计关系。线性回归是一种线性方法,用于建立因变量和一个或多个自变量之间的关系。单个自变量称为线性回归,而多个自变量称为多元回归。
相关性
依赖现象的简单例子包括父母的体貌特征与其子女之间的相关性,以及产品的价格与其供应数量之间的相关性。我们以seaborn Python库中提供的鸢尾花数据集为例。我们尝试建立三种鸢尾花物种的花萼和花瓣的长度和宽度之间的相关性。根据发现的相关性,可以创建一个强大的模型,轻松区分一个物种与另一个物种。
示例
import matplotlib.pyplot as plt import seaborn as sns df = sns.load_dataset('iris') #without regression sns.pairplot(df, kind="scatter") plt.show()
输出
运行上述代码得到以下结果:
线性回归
在数学上,线性关系在绘制成图表时表示一条直线。非线性关系中,任何变量的指数都不等于1,会产生曲线。Seaborn中用于查找线性回归关系的函数是regplot。下面的例子展示了它的用法。
示例
import seaborn as sb from matplotlib import pyplot as plt df = sb.load_dataset('tips') sb.regplot(x = "total_bill", y = "tip", data = df) plt.show()
输出
运行上述代码得到以下结果:
广告