网页使用挖掘的规则是什么?
网页挖掘定义了使用数据挖掘技术提取有益模式、趋势和数据的过程,通常借助于网络,通过处理来自基于网络的记录和服务、服务器日志和超链接来实现。网页挖掘的目标是通过收集和分析信息来发现网页记录中的设计,从而获得重要的见解。
网页挖掘可以被视为将适应性数据挖掘方法应用于互联网,而数据挖掘被定义为应用算法来发现通常结构化数据中模式的过程,该过程被纳入知识发现过程中。
网页挖掘具有独特的特点,可以提供一组多种数据类型。网络包含多个元素,这些元素为挖掘过程提供了多种方法,包括包含文本的网页、通过超链接链接的网页以及可以通过网络服务器日志监控的客户活动。
网页使用挖掘有各种规则,如下所示:
**预处理** - 网页使用日志并非挖掘应用程序可以访问的格式。为了使某些数据能够用于挖掘应用程序,可能需要重新格式化和清理数据。有些问题与使用 Web 日志特别相关。处理阶段包含的一些步骤包括:清理、用户识别、会话识别、路径完成和格式化。
**数据结构** - 已经提出了几种独特的数据结构来跟踪在网页使用挖掘过程中识别的模式。使用的一种基本数据结构称为树。树是具有根的树,其中从根到叶的每条路径都表示一个序列。树可以保存用于模式匹配应用程序的字符串。树的唯一问题是空间需求。
**模式发现** - 用于点击流数据的最常见数据挖掘技术是发现遍历模式。遍历模式是用户在一个会话中检查的一组页面。网页使用挖掘可以发现其他类型的模式。使用不同的组合来查找模式,这些组合用于发现不同的特征并用于不同的目的。
**模式分析** - 发现模式后,必须对其进行分析以确定如何使用该信息。某些模式可以被删除,并确定其无意义。
模式分析是查看和解释发现活动结果的阶段。不仅需要识别频繁的遍历模式类型,还需要识别由于其唯一性或统计特性而令人感兴趣的模式。