数据挖掘的局限性是什么?


数据挖掘是从存储在数据库中的海量数据中提取有用的新关联、模式和趋势的过程,它使用包括统计和数学技术在内的模式识别技术。它是对事实数据集的分析,以发现意想不到的关系,并以对数据所有者既有逻辑意义又有所帮助的新方法来总结记录。

数据挖掘是一个跨学科领域,它汇集了一套学科,例如数据库系统、统计学、机器学习、可视化和数据科学。根据所使用的数据挖掘方法,可以应用其他学科的技术,例如神经网络、模糊和/或粗糙集理论、知识表示、归纳逻辑编程或高性能计算。

数据挖掘类似于数据科学。它由个人在特定情况下对特定数据集进行,并具有特定目标。此阶段包含多种类型的服务,包括文本挖掘、网络挖掘、音频和视频挖掘、图像数据挖掘和社交媒体挖掘。它是通过简单或非常具体的软件完成的。

通过外包数据挖掘,所有工作都可以更快地完成,并且运营成本更低。特定的公司还可以使用新技术来保存手动无法找到的数据。多个平台上有大量数据可用,但可访问的知识非常有限。

主要挑战在于分析数据以提取可用于解决问题或公司发展的重要数据。有许多动态工具和技术可用于挖掘数据并从中获得更好的判断。

数据挖掘的局限性主要与数据或人员相关,而不是与技术相关。

  • 数据挖掘软件是非常强大的工具,但它们不是自给自足的应用程序。它的成功需要熟练的技术和分析专家,他们能够构建分析并解释生成的输出。

  • 数据挖掘用于获取模式和关系,但它不会告诉用户这些模式的价值或意义。这些类型的确定必须由用户做出。

  • 所发现模式的有效性取决于如何将这些模式与现实世界的情况进行比较。例如,为了评估旨在在一个庞大的人群中识别潜在恐怖嫌疑人的数据挖掘应用程序的有效性,用户可以使用包含有关已知恐怖分子的信息的数据来测试模型。

  • 数据挖掘可以识别行为和变量之间的联系,但它并不一定能识别因果关系。例如,一个应用程序可以识别出一种行为模式,例如在航班起飞前不久购买机票的倾向,与收入、教育水平和互联网使用等特征相关。

更新于:2022年2月15日

3K+ 次浏览

启动你的职业生涯

通过完成课程获得认证

开始学习
广告
© . All rights reserved.