人工智能创造用于机器学习的合成数据
简介
近年来,人工智能(AI)取得了显著进步,机器学习领域尤为突出。获取足够高质量的数据来训练模型是机器学习实践者面临的最大挑战之一。这就是合成数据发挥作用的地方。
人工智能创造用于机器学习的合成数据
人工生成的合成数据可用于训练机器学习算法。本文将探讨使用人工智能生成合成数据的优势,以及仍然需要克服的一些挑战。
生成对抗网络是人工智能用于生成合成数据的主要工具之一(GAN)。GAN是一种特殊的深度神经网络,由一个生成器和一个判别器组成。生成器负责生成虚假数据,而判别器则判断数据是真实还是虚假。这两个网络共同训练,生成器试图生成难以与真实数据区分开的虚假数据,而判别器则努力提高识别虚假信息的能力。
合成数据
合成数据有两个来源:
真实世界数据
模拟数据
虽然可以从真实世界数据中移除个人身份信息 (PII) 和个人健康信息 (PHI),但这并不能完全保护隐私,因为数据记录仍然可能与其他可用于识别个人的来源匹配。例如,像COVID-19的数据,匿名化数据必须再次以一种保持机器学习算法进行准确推断和制定准确规则所需的数据集所有统计特征的方式混合。
在某些情况下,缺乏真实世界数据是机器学习的挑战。有时,从真实世界获取数据可能不切实际或成本过高。模拟数据有时可能足够接近真实世界实例,以至于机器学习算法可以识别它。例如,自动驾驶汽车行业将来自移动车辆的真实传感器数据与来自驾驶模拟(甚至像侠盗猎车手这样的电子游戏)的模拟数据相结合。
在机器学习中使用合成数据具有多种优势。它可以用来补充有限的真实世界数据集,这是一个关键优势。例如,如果一家公司只有少量特定产品的照片,他们可以使用GAN生成该产品的合成图像,然后将其用于训练机器学习模型。这可以减少过拟合的可能性并提高模型的准确性。
能够为难以或不可能收集真实世界数据的任务生成数据是合成数据的另一个优势。假设一家公司想要训练一个机器学习模型来预测患者患某种特定疾病的倾向性。但是,由于隐私问题,他们无法获得真实的患者数据。在这种情况下,他们可以使用GAN生成虚假患者数据,然后用它来训练模型。除了GAN之外,还可以使用多种AI方法来生成合成数据。例如,一种名为变分自动编码器 (VAE) 的特定类型的深度神经网络可以通过研究数据集的底层分布来生成合成数据。此外,还可以应用数据插补、数据增强和数据模拟等方法来生成合成数据。
不幸的是,采用合成数据也带来一些必须克服的挑战。合成数据必须能够代表真实世界数据,这是一个主要障碍。如果合成数据与真实世界数据不完全匹配,则机器学习模型可能无法正常工作。另一个挑战是,合成数据必须足够多样化,以涵盖模型在现实世界中可能遇到的每种情况。
另一个挑战是,使用合成数据可能会产生有偏差的模型。有偏差的模型是指已经学会对某些人群产生不准确预测的模型。例如,在一个对特定种族或性别有偏见的合成数据上训练的模型可能会对不在该群体中的人产生不准确的预测。为避免这种情况,务必确保合成数据多样化,并能代表真实世界数据。
合成数据应用
用于DevOps的自动化软件测试。测试数据一直是软件开发的必要条件,但当今DevOps快速敏捷的开发周期比以往任何时候都需要更多的测试数据。
自动驾驶汽车的开发。在实际道路上操作传感器汽车是一个昂贵且耗时的过程,将来自驾驶模拟的数据结合起来,为自动驾驶AI提供了更大的数据集来进行训练。
制造业中的机器人和自动化。合成数据可以加快机器人和制造应用中AI系统的训练速度,因为真实世界的数据收集可能缓慢且昂贵,例如汽车数据收集。
金融服务。个人财务数据受到严格的保密限制,就像医疗数据一样,合成数据使开发人员和业务用户可以访问更大的数据集,而不会侵犯隐私。
市场营销中的消费者行为模拟。由于GDPR和其他限制适用于实际的消费者在线行为,因此可以使用合成数据集更广泛、更彻底地训练营销AI。
临床医学研究。由于PHI受到严格监管,因此在数据集可能过于有限而无用处的情况下,人工智能 (AI) 和机器学习变得可行。
面部识别为避免隐私泄露以及来自面部类型代表性不足的偏见,可以使用合成面部数据代替真实世界图片来训练面部识别。
结论
总而言之,人工智能正被用于创建可用于训练机器学习模型的合成数据。合成数据可用于增强有限的真实世界数据集,以及为难以或不可能收集真实世界数据的任务创建数据。但是,务必确保合成数据能够代表真实世界。