什么是Web结构挖掘?


Web结构挖掘是一种能够识别通过数据或直接链接连接的网页之间关系的工具。通过数据库技术为网页提供Web结构模式,可以发现这种结构化数据。

这种连接使搜索引擎能够直接从内容所在的网站将与搜索查询相关的数 据提取到连接的网页。这个过程需要蜘蛛程序扫描网站,获取主页,然后通过引用连接连接数据,从而调出包含所需信息的特定页面。

Web挖掘可以广泛地被视为将调整后的数据挖掘方法应用于Web,而数据挖掘则表示将算法应用于查找主要固定在知识发现过程中的结构化数据中的模式。

Web挖掘具有支持多个数据类型集合的独特特性。Web具有多个方面,可以为挖掘过程提供多种方法,例如包含文本的网页、通过超链接连接的网页以及可以通过Web服务器日志监控的用户活动。

结构挖掘利用最小化万维网的两个主要问题,因为它的数据量巨大。第一个问题与搜索结果无关。

由于搜索引擎通常只允许低精度标准,搜索信息的关联性变得曲解。

第二个问题是无法索引Web上支持的大量数据。这导致内容挖掘的记忆量减少。这种最小化部分体现在通过Web结构挖掘支持的Web超链接结构的底层模型的查找服务中。

结构挖掘的目的是提取网页之间以前未知的关系。这种数据挖掘结构为企业连接其网站数据以允许导航和将数据聚类到站点地图提供了用途。

这使用户能够通过关键词关系和内容挖掘创建所需的数据。还决定了超链接层次结构,以便将站点内的相关数据与竞争对手链接和通过搜索引擎以及第三方协同链接的连接路径关联起来。这允许对链接的网页进行聚类,以创建这些网页的关系。

在万维网上,结构挖掘的使用允许通过识别基本结构来确定网页的相同架构。

这些数据可用于设计web内容的相似性。已知的相似性然后支持支持或改进站点数据的能力,以便以更高的比率访问web蜘蛛。Web爬虫的数量越多,对站点越有利,因为与搜索相关的內容越多。

更新于:2022年2月16日

5000+ 次浏览

启动您的职业生涯

通过完成课程获得认证

开始学习
广告
© . All rights reserved.