为什么我们需要KDD?
将数据转化为知识的传统技术依赖于人工分析和解释。例如,在医疗保健行业,专家每季度系统地分析医疗保健数据中的当前趋势和变化是很常见的。
专家会向赞助的医疗保健组织提交一份详细说明分析结果的报告;这份报告成为未来医疗保健管理决策和计划的基础。有几种类型的应用,包括行星地质学家筛选行星和小行星的遥感图像,仔细定位和编目诸如撞击坑等感兴趣的地质物体。
这种对数据集进行人工探查的方式速度慢、成本高且高度主观。随着数据量的急剧增长,这种人工数据分析在许多领域变得完全不切实际。
在商业领域,主要的KDD应用领域包括市场营销、金融(尤其是投资)、欺诈检测、制造业、电信和网络代理。
市场营销 - 在市场营销中,基本应用是数据库营销系统,它分析客户数据库以识别不同的客户群体并预测他们的行为。
投资 - 许多公司将数据挖掘用于投资,但大多数公司没有公开其系统。一个例外是LBS资本管理公司。它的系统使用专家系统、神经网络和遗传算法来管理总计6亿美元的投资组合;自1993年成立以来,该系统一直跑赢大盘。
欺诈检测 - HNC Falcon和Nestor PRISM系统用于检查信用卡欺诈,监控数百万个账户。美国财政部金融犯罪执法网络的FAIS系统可以识别可能表明洗钱活动的金融交易。
制造业 - CASSIOPEE故障排除系统是通用电气和斯奈克玛合资企业的一部分开发的。它被三家主要的欧洲航空公司用来诊断和预测波音737飞机的问题。
电信 - 电信警报序列分析器(TASA)是与电信设备制造商和三个电话网络(Mannila、Toivonen和Verkamo 1995)合作开发的。该系统使用一种新颖的架构来从警报流中定位频繁出现的警报事件,并将其显示为规则。
存在大量可使用灵活的数据检索工具进行探索的已发现规则,这些工具提供了交互性和迭代性。通过这种方法,TASA提供了修剪、分组和排序设备来细化对规则进行基本蛮力搜索的结果。
数据清洗 - MERGE-PURGE系统用于识别重复的福利申请(Hernandez和Stolfo 1995)。它被广泛应用于华盛顿州福利部门的数据。