316 次浏览
近年来,机器学习改变了文明。它已成为需求量最大的行业之一,并将继续普及。模型创建是机器学习的核心组成部分之一。它涉及创建算法来分析数据并根据这些数据进行预测。即使是最好的算法,如果特征没有正确构建,也无法很好地工作。在这篇博文中,我们将探讨在构建模型时特征工程的好处。什么是特征工程?特征工程是从原始数据中识别和修改最重要的特征的行为……阅读更多
3K+ 次浏览
梯度下降是机器学习中一种重要的优化方法,用于最小化模型的损失函数。简单来说,它涉及重复更改模型的参数,直到找到最小化损失函数的理想值范围。该方法通过在损失函数负梯度方向(更具体地说,是下降最陡峭的路径)上采取微小步骤来工作。学习率是一个超参数,它控制算法在速度和精度之间的权衡,影响步骤的大小。许多机器学习方法,包括线性回归、逻辑回归和神经网络等,都使用……阅读更多
132 次浏览
推荐引擎是有效的基于机器学习算法的方法,用于根据用户的先前行为、偏好和其他标准为用户提供个性化建议。这些引擎被用于各种行业,包括电子商务、医疗保健和娱乐,并且已证明其通过提高用户参与度和收入为企业带来价值。设计端到端推荐引擎涉及多个过程,包括数据收集和预处理、特征工程、模型训练和评估、部署和监控。通过使用此过程,企业可以生成准确且相关的建议,从而改善用户体验并促进商业成功。在这篇博文中……阅读更多
1K+ 次浏览
基于树的算法是流行的机器学习技术,回归和分类是其两个常见用途。梯度提升、决策树和随机森林是一些常见的基于树的技术示例。这些算法可以处理类别和数字数据。但是,在馈送到算法之前,必须将分类数据转换为数字形式。一种这样的方法是标签编码。在这篇博文中,我们将研究标签编码如何影响基于树的算法。什么是标签编码?标签编码是将分类输入转换为数字数据的常用机器学习技术。它涉及为…中的每个类别分配一个…阅读更多
4K+ 次浏览
机器学习很大程度上依赖于优化算法,因为它们有助于改变模型的参数以提高其在训练数据上的性能。使用这些方法,可以确定最小化成本函数的最佳参数集。所采用的优化方法会对收敛速度、更新中的噪声量以及模型泛化效率产生重大影响。为了确保模型得到成功优化并达到最佳性能,必须针对特定情况使用正确的优化方法。随机梯度下降 (SGD)、梯度下降 (GD)、……阅读更多
6K+ 次浏览
两种主要的机器学习范式,即生成模型和判别模型,都广泛应用于各个领域。换句话说,判别模型专注于对区分几个数据类别的边界进行建模,而生成模型试图捕捉数据的潜在分布。数据科学家和机器学习专家必须了解这两种模型之间的区别,以便为特定任务选择最佳模型。此外,尽管生成模型最近变得……,但判别模型经常用于分类和回归等任务。阅读更多
10K+ 次浏览
熵和信息增益是信息论、数据科学和机器学习等领域中的关键概念。信息增益是在特定决策或行动中获得的知识量,而熵是不确定性或不可预测性的度量。当人们对这些原则有扎实的理解时,他们可以在各个学科中处理困难的情况并做出明智的判断。例如,熵可用于数据科学中评估数据集的多样性或不可预测性,而信息增益可以帮助识别最有用包含在…中的特性。阅读更多
619 次浏览
重采样是一种统计技术,用于从更多数据样本中收集数据,从中可以对总体或产生初始数据的过程进行推断。当需要根据给定数据估计总体参数或可用数据点很少时,这些方法广泛用于数据分析中。重采样方法通常使用自举法、刀切法和置换检验等技术来估计标准误差、置信区间和 p 值。分析和解释数据是数据科学家最重要的职责之一。但是,提供的数据并不总是足够具有代表性,这可能会……阅读更多
引言 图像分类和物体识别是两种经常使用卷积神经网络 (CNN) 的计算机视觉任务。然而,训练 CNN 模型可能很困难,尤其当验证准确率达到平台期并长时间保持不变时。几个因素可能导致这个问题,包括训练数据不足、超参数调整不当、模型复杂度以及过拟合。在这篇文章中,我们将讨论一些行之有效的方法来改进 CNN 训练中持续不变的验证准确率。这些方法包括数据增强、学习率调整、批量大小调整、正则化、优化器选择、初始化等等……阅读更多
优化算法经常用于机器学习模型中,以识别能够最小化特定代价函数的最佳参数集合。动量是一种常见的优化技术,经常用于机器学习中。动量是一种通过在更新规则中加入动量项来加速优化过程收敛速度的策略。这个动量因子帮助优化器即使梯度改变方向或变为零也能继续朝着同一方向前进。这有助于提高收敛速度,减少震荡,避免陷入局部最小值,并使优化过程更加……阅读更多