找到 413 篇文章 关于数据挖掘

什么是网络使用挖掘?

Ginni
更新于 2022年2月17日 12:34:11

4K+ 次查看

网络使用挖掘用于从 Web 日志数据中提取有用的数据、信息和知识,并有助于识别用户对网页的访问模式。在挖掘中,Web 资源的管理人员会考虑网站访问者的请求数据,这些数据构成 Web 服务器日志。网页集的内容和机制遵循网页作者的意图,而单个请求则显示用户如何查看这些网页。网络使用挖掘可以揭示网页设计者没有预料到的关系。一个 Web 服务器…… 阅读更多

我们如何使用中心页面查找权威页面?

Ginni
更新于 2022年2月17日 12:32:25

480 次查看

中心页面是一组支持指向权威页面的链接的网页。中心页面可能并不突出,也可能存在指向它们的链接;但是,它们支持指向特定主题上的一组突出网站的链接。此类页面可能是单个主页上推荐链接的列表,包括课程主页上推荐的参考网站,或商业网站上专业收集的资源文档。中心页面在隐式地赋予目标主题权威性方面发挥着重要作用。一般来说,一个好的中心页面是指向多个好的权威页面的页面;一个好的…… 阅读更多

什么是文档聚类分析?

Ginni
更新于 2022年2月17日 12:30:24

2K+ 次查看

文档聚类是无监督方式组织文件的重要技术。当文档表示为术语向量时,可以应用聚类方法。文档空间通常具有较大的维度,范围从几百到几千不等。由于维数灾难,首先将文档投影到低维子空间中是有意义的,在该子空间中,文档空间的语义结构变得清晰。在低维语义区域中,可以使用传统的聚类算法。文档聚类分析有几种方法,如下所示:谱聚类 - 谱聚类方法首先执行谱…… 阅读更多

如何进行自动文档分类?

Ginni
更新于 2022年2月17日 12:20:22

139 次查看

自动文档分类是一项重要的文本挖掘服务,因为存在大量的在线文件,能够自动将这些记录组织成类别以支持文档检索和后续分析是无止境但又非常重要的。文档分类已用于自动主题标记(即,为文档分配标签)、主题目录构建以及识别文档写作风格和定义与一组文档相关的超链接的目标。一般的过程如下:首先,一组预分类文件作为训练集。分析训练集以…… 阅读更多

使用统计技术进行空间数据挖掘怎么样?

Ginni
更新于 2022年2月17日 11:55:56

371 次查看

统计空间数据分析一直是探索空间数据和分析地理数据的一种著名技术。地统计学与连续地理区域相关,而空间统计学与离散空间相关。在一个管理非空间记录的统计模型中,通常会考虑不同数据区域之间的统计独立性。然而,与传统数据集不同,空间分布数据之间不存在这种独立性,因为实际上,空间对象通常是相互关联的,或者更准确地说是在空间上共存的,这意味着两个对象的位置越接近,它们共享相同属性的可能性就越大。例如,…… 阅读更多

如何对这些数据进行泛化?

Ginni
更新于 2022年2月17日 11:53:37

474 次查看

集合值属性可以是同构或异构类型的。通常,集合值信息可以通过以下方式进行泛化:将集合中每个值泛化到其等效的更高级别概念;推导出集合的通常行为,包括集合中的多个元素、集合中的类型或值范围、统计数据的加权平均值或集合形成的主要集群。此外,可以使用多个泛化算子来分析替代泛化路径来实现泛化。在这种方法中,泛化的结果是异构集合。示例 - 假设一个人的爱好是一个集合值…… 阅读更多

什么是元组 ID 传播?

Ginni
更新于 2022年2月17日 11:49:00

267 次查看

元组 ID 传播是一种实现虚拟连接的方法,它极大地提高了多关系分类的效率。它们不是物理地连接关系,而是通过将目标元组的 ID 连接到非目标关系中的元组来虚拟地组合它们。在这种方法中,可以计算谓词,就好像实现了物理连接一样。元组 ID 传播灵活且有效,因为 ID 可以简单地在两个关系之间传播,只需要少量的数据传输和更多的存储空间。通过这样做,可以计算多个关系中的谓词,而冗余计算很少。元组 ID 传播必须与…… 阅读更多

什么是 BLAST 局部比对算法?

Ginni
更新于 2022年2月17日 11:47:02

447 次查看

BLAST 算法由 Altschul、Gish、Miller 大约在 1990 年在美国国家生物技术信息中心 (NCBI) 开发。BLAST 用于推导序列之间的功能和进化关系,并有助于识别基因家族的成员。NCBI 网站包含多个常用的 BLAST 数据库。根据其内容,它们被组合成核苷酸和蛋白质数据库。NCBI 还支持专门的 BLAST 数据库,包括载体筛选数据库,有多个生物体的多个基因组数据库,以及轨迹数据库。BLAST 使用启发式方法来发现查询序列和数据库之间最大的局部比对。BLAST 增加了完整的…… 阅读更多

比较和比对生物序列为什么有用?

Ginni
更新于 2022年2月17日 11:45:18

93 次查看

比对依赖于所有生物体都通过进化相关联的事实。这利用了在进化中彼此更接近的物种的核苷酸(DNA、RNA)和蛋白质序列必须表现出更高的相似性。比对是将序列排列起来以获得最大程度一致性的阶段,这也定义了序列之间相似性的程度。如果两个序列发送共同祖先,则它们是同源的。通过序列比对获得的相似性程度可以帮助确定两个序列之间同源性的可能性。这种比对支持确定…… 阅读更多

什么是 GSP?

Ginni
更新于 2022年2月17日 11:42:10

691 次查看

GSP 代表广义顺序模式。它是由 Srikant 和 Agrawal 于 1996 年提出的顺序模式挖掘方法。它是他们对常用项集挖掘的开创性算法(称为 Apriori)的扩展。GSP 需要顺序模式的自下而上的性质,并采用多遍的生成和测试方法。算法如下。在数据库的第一次扫描中,它可以发现一些频繁项,即那些具有最小支持的项。每个项目都会产生一个包含该项目的 1-事件频繁序列。每次后续传递都从顺序模式的种子集和…… 阅读更多

广告