数据科学 - 机器学习
机器学习使机器能够从数据中自动学习,从经验中提高性能,并在没有明确编程的情况下预测事物。机器学习主要关注开发允许计算机从数据和过去经验中自行学习的算法。机器学习这个术语是由亚瑟·塞缪尔在1959年首次提出的。
数据科学是从数据中获取有用见解的科学,以便获得最关键和相关的的信息来源。并且在给定可靠的数据流的情况下,使用机器学习生成预测。
数据科学和机器学习是计算机科学的子领域,专注于分析和利用大量数据来改进产品、服务、基础设施系统等开发和推向市场的过程。
两者之间的关系类似于正方形和矩形的关系,但矩形不是正方形。数据科学是包含一切的矩形,而机器学习是它本身的一个实体的正方形。数据科学家在他们的工作中经常使用它们,并且几乎每个企业都越来越接受它们。
什么是机器学习?
机器学习(ML)是一种算法类型,它允许软件在没有专门编程的情况下更准确地预测未来会发生什么。机器学习背后的基本思想是创建能够将数据作为输入并使用统计分析来预测输出的算法,同时在新的数据可用时更新输出。
机器学习是人工智能的一部分,它使用算法来查找数据中的模式,然后预测这些模式在未来将如何变化。这使工程师能够使用统计分析来查找数据中的模式。
Facebook、Twitter、Instagram、YouTube 和 TikTok 收集有关其用户的信息,根据您过去的行为,它可以猜测您的兴趣和需求,并推荐适合您需求的产品、服务或文章。
机器学习是一套用于数据科学的工具和概念,但它们也出现在其他领域。数据科学家经常在他们的工作中使用机器学习来帮助他们更快地获取更多信息或找出趋势。
机器学习的类型
机器学习可以分为三种类型的算法:
监督学习
无监督学习
强化学习
监督学习
监督学习是一种机器学习和人工智能的类型。它也被称为“监督式机器学习”。它的特点是使用标记数据集来训练算法如何正确地分类数据或预测结果。当数据输入模型时,其权重会发生变化,直到模型正确拟合。这是交叉验证过程的一部分。监督学习帮助组织找到各种现实世界问题的规模化解决方案,例如将垃圾邮件分类到与收件箱分开的文件夹中,就像在 Gmail 中,我们有一个垃圾邮件文件夹。
监督学习算法
一些监督学习算法包括:
朴素贝叶斯 - 朴素贝叶斯是一种分类算法,它基于贝叶斯定理的类条件独立性原理。这意味着一个特征的存在不会改变另一个特征的可能性,并且每个预测变量对结果/结局具有相同的效应。
线性回归 - 线性回归用于发现因变量如何与一个或多个自变量相关联,并对未来会发生的事情做出预测。当只有一个自变量和一个因变量时,称为简单线性回归。
逻辑回归 - 当因变量是连续的时,使用线性回归。当因变量是分类的,例如“真”或“假”或“是”或“否”时,使用逻辑回归。线性回归和逻辑回归都试图找出数据输入之间的关系。但是,逻辑回归主要用于解决二元分类问题,例如确定特定邮件是否为垃圾邮件。
支持向量机(SVM) - 支持向量机是由弗拉基米尔·瓦普尼克开发的一种流行的监督学习模型。它可用于分类和预测数据。因此,它通常用于通过创建超平面来解决分类问题,在该超平面上两组数据点之间的距离最大。这条线称为“决策边界”,因为它将两侧的数据点分组(例如,橙子和苹果)。
K近邻 - KNN 算法,也称为“k-近邻”算法,根据数据点彼此之间以及与其他数据点的接近程度和相关性对数据点进行分组。该算法基于类似的数据点可以彼此靠近找到的思想。因此,它尝试使用欧几里得距离来确定数据点之间的距离,然后根据最常见或平均类别分配一个类别。但是,随着测试数据集大小的增长,处理时间会增加,使其不太适合分类任务。
随机森林 - 随机森林是另一种灵活的监督机器学习算法,可用于分类和回归。这个“森林”是一组彼此不相关的决策树。然后将这些树组合起来以减少差异并做出更准确的数据预测。
无监督学习
无监督学习,也称为无监督机器学习,使用机器学习算法查看未标记的数据集并将其组合在一起。这些程序查找隐藏的模式或数据组。它在信息中查找相似点和差异的能力使其非常适合探索性数据分析、交叉销售策略、客户细分和图像识别。
常见的无监督学习方法
无监督学习模型用于三个主要任务:聚类、建立联系和降低维度。下面,我们将描述学习方法和常用的算法:
聚类 - 聚类是一种数据挖掘方法,它根据数据之间的相似性或差异来组织未标记的数据。聚类技术用于根据数据中的结构或模式将未分类、未处理的数据项组织成组。聚类算法有很多类型,包括排他性、重叠、层次和概率。
K均值聚类是一个流行的聚类方法示例,其中数据点根据它们与每个组的中心点的距离分配到 K 个组中。最靠近某个中心点的数据点将被分组到同一类别中。较高的 K 值表示具有更多粒度的较小组,而较低的 K 值表示具有较少粒度的较大组。K均值聚类的常见应用包括市场细分、文档聚类、图像分割和图像压缩。
降维 - 尽管更多的数据通常会产生更准确的结果,但它也可能影响机器学习算法的有效性(例如,过拟合)并使数据集的可视化变得困难。当数据集具有过多的特征或维度时,会使用降维策略。它减少了数据输入的数量到可管理的水平,同时尽可能地保持数据集的完整性。降维通常用于数据预处理阶段,并且有多种方法,其中一种是:
主成分分析(PCA) - 它是一种降维方法,用于通过特征提取来去除冗余和压缩数据集。此方法使用线性变换来生成新的数据表示,从而产生一组“主成分”。第一个主成分是最大化方差的数据集方向。尽管第二个主成分同样找到数据中最大的方差,但它与第一个完全不相关,从而产生与第一个正交的方向。此过程根据维度的数量重复进行,下一个主成分是与先前最可变成分正交的方向。
强化学习
强化学习(RL)是一种机器学习类型,它允许代理通过试错在交互环境中学习,利用其自身行为和经验的反馈。
强化学习中的关键术语
一些描述 RL 问题基本组件的重要概念包括:
环境 - 代理运行的物理环境
状态 - 代理的当前情况
奖励 - 基于环境的反馈
策略 - 代理状态和动作之间的映射
价值 - 代理在给定状态下执行某个动作将获得的未来奖励。
数据科学与机器学习
数据科学是对数据及其如何从中得出有意义的见解的研究,而机器学习是对使用数据来提高性能或告知预测的模型的研究和开发。机器学习是人工智能的一个子领域。
近年来,机器学习和人工智能(AI)在数据科学领域占据主导地位,在数据分析和商业智能中发挥着至关重要的作用。机器学习通过使用模型和算法,自动执行数据分析并根据对特定人群的大量数据的收集和分析进行预测。数据科学和机器学习彼此相关,但并不相同。
数据科学是一个广阔的领域,涵盖了从数据中提取见解和信息的各个方面。它涉及收集、清理、分析和解读海量数据,以发现可能指导业务决策的模式、趋势和见解。
机器学习是数据科学的一个子领域,专注于开发能够从数据中学习并根据其获得的知识进行预测或判断的算法。机器学习算法旨在通过获取新知识随着时间的推移自动提高其性能。
换句话说,数据科学将机器学习包含在其众多方法论中的一种。机器学习是数据分析和预测的强大工具,但它只是整个数据科学的一个子领域。
以下是比较表,以便于理解。
| 数据科学 | 机器学习 |
|---|---|
数据科学是一个广泛的领域,它涉及使用各种技术(包括统计分析、机器学习和数据可视化)从大型复杂的数据集中提取见解和知识。 |
机器学习是数据科学的一个子集,它涉及定义和开发算法和模型,使机器能够从数据中学习并进行预测或决策,而无需明确编程。 |
数据科学专注于理解数据、识别模式和趋势以及提取见解以支持决策制定。 |
另一方面,机器学习专注于构建预测模型并根据学习到的模式做出决策。 |
数据科学包括各种各样的技术,例如数据清理、数据集成、数据探索、统计分析、数据可视化和机器学习。 |
另一方面,机器学习主要专注于使用回归、分类和聚类等算法构建预测模型。 |
数据科学通常需要大型复杂的数据集,这些数据集需要进行大量的处理和清理才能得出见解。 |
另一方面,机器学习需要带标签的数据,这些数据可用于训练算法和模型。 |
数据科学需要统计学、编程和数据可视化方面的技能,以及所研究领域的领域知识。 |
机器学习需要深入了解算法、编程和数学,以及特定应用领域的知识。 |
数据科学技术可用于预测之外的各种目的,例如聚类、异常检测和数据可视化。 |
机器学习算法主要专注于根据数据进行预测或决策。 |
数据科学通常依赖统计方法来分析数据, |
机器学习依赖算法进行预测或决策。 |