分类与回归的区别
在数据挖掘中,存在两个主要的预测问题,即分类和回归。分类和回归之间最基本的区别在于,分类算法用于分析离散值,而回归算法则分析连续的实数值。
输出变量必须是连续的或实数值。分类中的输出变量必须是离散值。相反,回归中的输出变量必须是连续的或实数值。
在本文中,我们将讨论分类和回归之间所有重要的差异。让我们从分类和回归的一些基础知识开始,以便更容易理解它们彼此之间的区别。
什么是分类?
分类是寻找一个模型的过程,该模型表示并区分数据类或概念,目的是能够使用该模型来预测类标签未知的对象的类别。派生的模型基于对一组训练记录的分析,即类标签已知的数 据对象。
分类是数据挖掘中最重要的概念之一,因为它定义了一个根据实例的属性为其分配预定义类标签的过程。分类是一种预先确定的方法,可以使对大型数据集的分析更有效。
什么是回归?
回归是一种监督机器学习方法,可用于预测任何连续值的属性。回归使一些商业组织能够探索目标变量和预测变量之间的关联。因此,回归是探索可用于货币预测和时间序列建模的数据的重要工具之一。
我们可以使用回归来执行分类。为此,它使用两种方法,即划分和预测。在划分的情况下,数据被划分为位于类上的区域,而在预测中,使用一些公式来预测类的输出值。
回归可以预测一些相关的依赖数据集。回归还支持预测变量的方法,但存在某些限制和假设,例如变量的独立性、变量的固有正态分布等。
分类与回归的区别
下表突出显示了分类和回归之间所有重要的差异 -
分类 | 回归 |
---|---|
分类输出离散值。 | 回归输出连续值。 |
给定一组数据,此方法有助于将数据分组到不同的组中。 | 它使用映射函数将值映射到连续输出。 |
在分类中,预测数据的性质是无序的。 | 回归具有有序的预测数据。 |
映射函数用于将值映射到预定义的类。 | 它试图找到最佳拟合线。它试图外推图形以查找/预测值。 |
示例包括决策树、逻辑回归。 | 示例包括回归树(随机森林)、线性回归 |
分类通过测量准确性来完成。 | 回归使用均方根误差方法完成。 |
结论
分类和回归之间最显着的区别在于,分类提供了一个预测模型,该模型借助历史数据以离散标签预测新数据,而回归则以连续值预测数据。
广告