人工智能与数据的关系


简介

人工智能 (AI) 成功地模仿了人类的认知和推理过程,并将其应用于日常应用中。这在网络安全中经常被观察到,例如工作自动化和威胁变种预测。

但任何人工智能系统(就像汽车一样)都需要燃料来驱动。然而,数据远不止燃料那么简单。因此,本文的目的是阐明数据在人工智能中起到的至关重要的作用。

人工智能与数据的关系

以下是人工智能与数据之间的一些关系

垃圾进,垃圾出

人工智能系统的“输出”(您正在寻找的解决方案)只能通过提供正确的输入来获得。在这种情况下,它采用数据集的形式。如果其中任何一个数据不准确,您的输出将会出现偏差,您的结论也将引导您走向错误的方向。

我们使用机器学习创建的垃圾分类软件很好地证明了这一点(与垃圾相关的引用并非有意为之)。数据对于该项目的成功至关重要。

良好数据集的特征是什么?

回答这个问题可能很困难,因为它主要取决于人工智能系统预期执行的目的。但一般来说,以下列出的特征是在筛选数据集时需要注意的:

  • 完整性 - 这确保您的数据集中不包含任何空白或单元格。在任何插槽中都没有明显的空隙;每个插槽都包含一些数据。

  • 全面性 - 数据集尽可能全面。例如,如果您的目标是在网络安全中模拟威胁向量,则所有导致其产生的签名配置文件必须包含所有相关数据。

  • 一致性 - 分配给数据集的变量必须适用于所有数据集。例如,如果您正在模拟汽油价格,则您选择的变量(天然汽油、无铅汽油、高级汽油等)必须包含必要的价格信息,以便落入相关的类别。

  • 准确性 - 这至关重要。您必须相信这些数据源,因为您将为您的 AI 系统选择不同的数据源。如果任何部分不准确,结果将出现偏差,您将无法获得正确的答案。

  • 有效性 - 使用时间序列数据集时,这一点至关重要。在检查最近的数据集时,您不希望看到过时的数据,这些数据可能会阻碍人工智能系统学习的能力。允许它从最近的数据中获取知识。您的应用程序将决定回溯多远。例如,对于网络安全,回溯一年通常就足够了。

  • 唯一性 - 每个数据都必须与其所服务的变量不同,就像一致性一样。例如,您不希望同一天然气价格因两个不同的因素而有所不同。

并非所有人工智能系统都具有同等能力

当我们考虑实际数据集时,我们经常会看到一个很长的数字列表或定量数据。但还有其他用于定性数据的数据库,例如电影、图像等等。

人工智能系统分别将这些数据集称为“结构化”和“非结构化”。需要记住的是,并非所有人工智能系统都能处理这些数据集中的每一个。

但是,也有一些系统可以同时利用两者,并且只需要很少的人工干预。因此,为您的系统选择合适的数据集至关重要;否则,您的输出可能会产生与您预期不同的结果。

质量与数量的问题

为了学习并生成所需的输出,人工智能系统必须首先消耗并学习大量数据。这可以快速处理,但问题是:我们应该优先考虑质量还是数量?始终选择后者。

较短的数据集将需要人工智能系统花费更多的时间进行处理,但可以确保结果可靠且有用。怀着人工智能系统能够从中学习什么的空想,而向其提供大量数据是适得其反的。

结论

人工智能 (AI) 成功地模仿了人类的认知和推理过程。任何人工智能系统(就像汽车一样)都需要燃料来驱动。数据对于该项目的成功至关重要;以下是一些良好数据集的关键特征。例如,如果您正在模拟汽油价格,则您选择的变量(天然汽油、无铅汽油、高级汽油等)必须包含必要的价格信息。为了学习并生成所需的输出,人工智能系统必须消耗并学习大量数据。

为您的系统选择合适的数据集并确保其产生可靠且有用的结果至关重要。问题是——我们应该优先考虑质量还是数量?

更新于: 2023年3月10日

294 次浏览

开启您的 职业生涯

通过完成课程获得认证

开始学习
广告