机器学习从业者面临的各种挑战是什么?
虽然机器学习正在快速发展,但它仍有很长的路要走。其原因在于ML从业者在开发应用程序时面临着各种挑战。让我们来看看这些挑战——
- 数据收集——数据在开发任何机器学习应用程序中都扮演着最重要的角色。ML从业者的大部分工作都集中在收集高质量的数据。如果您是初学者并想尝试机器学习,可以从Kaggle或UCI ML Repository中找到数据集。但是,如果您想实现实际案例场景或需要解决业务问题,则需要通过网络抓取或从客户那里收集数据。收集后,数据应被结构化并存储在数据库中。为此,ML从业者需要额外的大数据知识。
- 训练数据质量——数据收集完成后,机器学习工程师需要做两件事。一是为机器学习项目选择合适的学习算法,二是使用一些已获取的数据来训练模型。这里最大的挑战是选择高质量的训练数据。训练数据的质量非常重要,因为使用低质量的数据会导致与数据预处理和特征提取相关的问题。
- 非代表性训练数据——训练数据应该具有代表性,即它也应该能够很好地概括新的案例(即将发生的案例)。对于每个ML从业者来说,寻找具有代表性的训练数据都是一个严峻的挑战,因为使用非代表性训练数据会导致错误的预测。
- 选择相关特征——如果我们使用包含大量无关特征的训练数据,我们的ML模型将永远无法给出预期的结果。特征选择,即选择有助于ML项目成功的良好特征,是重要的方面之一,也是ML从业者应该克服的另一个关键挑战。
- 训练数据的过拟合和欠拟合——过拟合问题发生在ML模型拾取训练数据中的噪声并将其作为概念学习时。而欠拟合问题,顾名思义,发生在它既没有对训练数据建模也没有泛化到新数据时。ML从业者的目标应该是选择一个处于欠拟合和过拟合之间最佳点的模型。
- 模型部署——对于许多ML从业者来说,另一个最大的挑战是成功部署他们的ML应用程序。这可能是由于依赖项问题、对业务问题或底层模型的理解不足、ML模型不稳定等原因造成的。
广告