为什么挖掘频繁项集的任务很难?


数据挖掘是从存储在存储库中的大量记录中提取有用的新关联、模式和趋势的过程,它使用包括统计和数值技术在内的模式识别技术。它是对事实数据集的分析,以发现意想不到的关系,并以对数据所有者既合乎逻辑又有所帮助的新方法总结记录。

它是选择、探索和建模大量信息以查找最初未知的规律或关系以获得对数据库所有者清晰且有益的结果的过程。

数据挖掘类似于数据科学。它由一个人在特定情况下对特定数据集进行,并具有特定目标。此阶段包含多种类型的功能,包括文本挖掘、网络挖掘、音频和视频挖掘、描述性数据挖掘和社交媒体挖掘。它通过简单或非常具体的软件完成。

通过外包数据挖掘,所有工作都可以更快地完成,并且运营成本更低。特定公司还可以使用新技术来保存手动难以找到的数据。多个平台上有大量数据可用,但可访问的知识非常有限。

主要挑战在于分析数据以提取可用于解决问题或用于公司发展的重要数据。有许多动态工具和技术可用于挖掘数据并从中发现更好的判断。

挖掘频繁项集的任务之所以复杂,是因为由于多维空间中信息的稀疏性,难以在低级或原始的抽象方法中找到数据项之间的强关联。

强关联是在高概念层次上发现的,可以代表常识,但对一个用户来说可以代表常识的东西,对另一个用户来说可能看起来是新的。因此,需要数据挖掘提供在多个抽象级别挖掘关联规则并简单地在多个抽象空间之间传递的可能性。

挖掘频繁项集之所以困难,原因如下:

  • 生成关联规则所需的计算量随着项数和所考虑规则的复杂性的增加呈指数增长。

  • 除了一个标识特征(包括产品类型)之外,项被认为是相同的。并非所有问题都符合此描述。

  • 最困难的任务是确定分析中要使用的正确项集。通过概括项,可以确保分析中使用的项的频率大致相同。

  • 当在很少的事务中很少出现的项时,很难生成关联规则。

更新于:2022年2月15日

239 次浏览

开启你的职业生涯

完成课程获得认证

开始学习
广告
© . All rights reserved.