什么是网页使用挖掘?


网页使用挖掘用于从 Web 日志数据中提取有用的数据、信息和知识,并有助于识别用户对网页的访问模式。

在挖掘中,Web 资源的管理,个人会考虑网站访问者请求的数据,这些数据以 Web 服务器日志的形式组成。虽然网页集的内容和机制遵循页面作者的意图,但单个请求显示了用户如何查看这些页面。网页使用挖掘可以揭示页面设计者未曾预料到的关系。

Web 服务器通常会为每次访问 Web 页面注册一个(Web)日志条目,或 Web 日志条目。它包含请求的 URL、发起请求的 IP 地址和时间戳。

对于基于 Web 的电子商务服务器,会收集大量 Web 访问日志数据。一些著名的网站每天可以记录数千兆字节的 Web 日志记录。Web 日志数据库支持关于 Web 动态的丰富数据。因此,开发复杂的 Web 日志挖掘方法至关重要。

在开发网页使用挖掘方法时,可以考虑以下几点。首先,尽管构思 Web 日志文件分析的多种应用是令人鼓舞和刺激的。但必须理解,此类应用的成功取决于从大量原始日志记录中能够找到什么以及能找到多少真实可靠的知识。

其次,利用可用的 URL、时间、IP 地址和网页内容数据,可以在 Web 日志数据库上构建多维视图,并可以实现多维 OLAP 分析来发现前 N 个用户、前 N 个访问的网页、最常访问的时间段等,这将有助于发现潜在的客户、用户、市场等。

第三,可以对 Web 日志记录实施数据挖掘,以发现 Web 访问的关联模式、顺序模式和趋势。对于 Web 访问模式挖掘,必须采取进一步措施以获取更多用户遍历数据,以简化准确的 Web 日志分析。

此类更多数据可以包括 Internet 服务器缓冲区中网页的用户浏览序列。随着此类 Web 日志文档的需求,研究一直致力于分析系统实现、通过 Web 缓存、网页预取和网页交换增强系统设计;了解 Web 流量的特征;以及了解客户的反应和动机。

例如,一些研究提出了自适应网站——通过了解用户访问模式来增强自身的网站。Web 日志分析还可以帮助为单个用户构建定制的 Web 服务。

更新时间: 2022 年 2 月 17 日

4K+ 浏览量

开启您的 职业生涯

通过完成课程获得认证

开始学习
广告