机器学习专业人士面临的七大挑战


本文让我们了解当今机器学习工程师面临的一些常见挑战。

引言

如今,机器学习已成为各个领域和行业的尖端技术,机器学习从业人员的数量大幅增加,从概念设计到将概念付诸生产,实施人工智能项目的挑战也随之增大。机器学习工程师的道路并非易事,他们/她们会在这个过程中面临许多挑战。

高质量数据收集

是的,这是事实。我们不能否认,如今数据已成为每个行业的“新石油”。数据对他们来说是金子。数据在每个用例中都扮演着关键角色。机器学习工程师60%的工作在于收集数据。但实际情况与表面上看到的略有不同。高质量的真实数据稀缺。我们为行业ML收到的数据大多充满了噪声和异常值。这些噪声数据必须经过严格的清洗过程,有时会占用整个任务的约50%。工程师有时可能会幸运地从来源良好且开发完善的API获取数据,这些API可以提供有用的数据,但大多数时候他们必须依赖来自爬虫、网站、传感器等的数据,这些数据可能包含大量的噪声。对高质量数据的需求正在呈指数级增长。

训练数据不足

我们可能从外部来源或内部数据收集方法获得的数据可能高度不足或过少,无法开发出具有良好性能的高质量模型。训练数据的稀缺直接影响模型在新/未见数据上的性能,这样的模型可能不适合用于生产。

例如,假设我们想训练一个线性回归模型来预测给定组织中员工在提供某些参数的情况下获得的工资。假设该组织的员工人数非常少(约50人)。在这里我们可以说,我们无法建立一个好的模型,因为我们没有很多数据点让模型学习。这里数据稀缺。

欠拟合问题

这是机器学习工程师面临的一个非常常见的问题。这也可能是训练数据不足的直接后果。如果数据变化较少,也可能发生这种情况。或者如果我们在清洗过程中删除了很大一部分数据,并且剩下的数据不多。在欠拟合中,模型的训练甚至在训练集上表现也不好,因此它无法泛化并在未见数据上进行良好的预测。

例如,在上一个预测员工工资的案例中,使用该数据的工程师可能会在LR模型中遇到欠拟合问题。

不相关和不需要的特征

很多时候,ML工程师获得的数据可能包含大量不相关特征的数据集,如果数据集中有很大一部分是不相关的特征,那么训练模型就会变得非常麻烦。

例如,在计算一个人工资的用例中,员工姓名或员工ID是不相关的特征,因为模型(线性回归)可能不需要这些特征,因为它们是分类的,并且可能不被主要采用数值的回归模型接受。

过拟合问题

与欠拟合类似,存在过拟合问题,其中模型可以在训练数据上产生良好的结果,但无法很好地泛化到未见数据或测试集。因此,该模型被认为具有很大的高方差误差和低偏差。具有高方差的模型可以准确地表示数据集,但可能导致过拟合到噪声或其他不具有代表性的训练数据,并且模型的准确性降低。当模型学习到训练数据集中的噪声或随机波动被模型当作概念学习和掌握时,就会发生过拟合。

例如

假设我们要对成年人的年龄与识字率进行建模。如果我们对很大一部分人口进行抽样,我们会发现一种明确的关系。这是信号,而噪声干扰信号。如果我们对当地人口进行相同的操作,这种关系就会变得模糊。它会受到异常值和随机性的影响,例如,一个成年人很早就上学了,或者一些成年人负担不起教育等等。

模型部署

数据显示,大多数生产中的机器学习项目在第一次部署时都失败了,这些项目在本地服务器/系统上看起来运行良好。ML项目需要大量的云资源,例如数据仓库、数据清洗管道、虚拟机、调度程序等。这些组件的无缝集成对于机器学习和MLOps工程师来说是一项具有挑战性的任务。这项任务需要大量的实践和依赖关系、对底层模型与业务的低理解、对业务问题的理解以及不稳定的模型。

例如,AWS、Azure和Google等许多云服务都有自己的云ML训练和部署管道,我们可以将其用于我们的用例。

监控和再训练方法

ML模型的监控是一项非常重要的任务,工程师有时难以维护和监控模型的性能和指标、故障原因、分析等。此外,一旦训练好模型,如果性能下降或收到更高质量或更新的数据,将来可能需要对其进行再训练。

例如,有很多基于服务器的监控平台,例如W&B、Neptune.ai。

结论

机器学习是一项复杂的任务,伴随着相当多的挑战。它需要在数据分析、编程熟练程度、对机器学习以及部署的良好理解等许多领域具备技能。

更新于:2022年12月1日

978 次浏览

启动您的职业生涯

通过完成课程获得认证

开始
广告
© . All rights reserved.