找到关于数据库的6705 篇文章

什么是网络使用挖掘?

Ginni
更新于 2022年2月17日 12:34:11

4K+ 次浏览

网络使用挖掘用于从 Web 日志数据中提取有用的数据、信息和知识,并有助于识别网页的用户访问模式。在挖掘中,Web 资源的管理人员会考虑网站访问者的请求数据,这些数据构成 Web 服务器日志。虽然网页集的内容和机制遵循网页作者的意图,但单个请求显示了用户如何查看这些网页。网络使用挖掘可以揭示网页设计者未曾预料到的关系。一个 Web 服务器... 阅读更多

我们如何使用中心页查找权威页面?

Ginni
更新于 2022年2月17日 12:32:25

480 次浏览

中心页是一组支持指向权威页面的链接的网页。中心页可能并不突出,或者可能存在一些指向它们的链接;但是,它们支持指向某个一般主题上的一组突出网站的链接。此类页面可以是单个主页上的推荐链接列表,包括课程主页上的推荐参考网站,或商业网站上的专业整理的资源文档。中心页在隐式地赋予目标主题权威性方面发挥着重要作用。一般来说,一个好的中心页是指向几个好的权威页面的页面;一个好的... 阅读更多

什么是文档聚类分析?

Ginni
更新于 2022年2月17日 12:30:24

2K+ 次浏览

文档聚类是组织文件的一种重要的无监督技术。当文档表示为词向量时,就可以应用聚类方法。文档空间通常具有高维性,范围从几百到几千不等。由于维数灾难,首先将文档投影到低维子空间中是有意义的,在该子空间中,文档空间的语义结构变得清晰。在低维语义空间中,可以使用传统的聚类算法。文档聚类分析有几种方法,如下所示:谱聚类 - 谱聚类方法首先执行谱... 阅读更多

如何执行自动文档分类?

Ginni
更新于 2022年2月17日 12:20:22

139 次浏览

自动文档分类是一项重要的文本挖掘服务,因为存在大量的在线文件,能够自动将这些记录组织成类别以支持文档检索和后续分析是无止境的但又非常重要的。文档分类已用于自动主题标记(即为文档分配标签)、主题目录构建以及识别文档写作风格和定义与一组文档相关的超链接的目标。一般的过程如下:首先,选择一组预分类的文件作为训练集。分析训练集以... 阅读更多

关于使用统计技术进行空间数据挖掘?

Ginni
更新于 2022年2月17日 11:55:56

371 次浏览

统计空间数据分析一直是探索空间数据和分析地理数据的一种著名技术。地统计学与连续地理区域相关,而空间统计学与离散空间相关。在一个管理非空间记录的统计模型中,人们通常认为不同数据区域之间存在统计独立性。然而,与传统数据集不同,空间分布数据之间不存在这种独立性,因为实际上,空间对象通常是相互关联的,或者更准确地说是在空间上共存的,这意味着两个对象的位置越接近,它们共享相同属性的可能性就越大。例如,... 阅读更多

如何对这些数据进行泛化?

Ginni
更新于 2022年2月17日 11:53:37

474 次浏览

集合值属性可以是同构或异构类型的。通常,集合值信息可以通过以下方式进行泛化:将集合中每个值泛化到其等效的更高层次概念;推导出集合的通常行为,包括集合中的多个元素、集合中的类型或值范围、统计数据的加权平均值或集合形成的主要聚类。此外,可以使用多个泛化算子来分析替代泛化路径来实现泛化。在这种方法中,泛化的结果是一个异构集合。示例 - 假设一个人的爱好是一个集合值... 阅读更多

什么是元组 ID 传播?

Ginni
更新于 2022年2月17日 11:49:00

267 次浏览

元组 ID 传播是一种实现虚拟连接的方法,它极大地提高了多关系分类的效率。它们不是物理地连接关系,而是通过将目标元组的 ID 连接到非目标关系中的元组来虚拟地组合它们。在这种方法中,可以计算谓词,就好像实现了物理连接一样。元组 ID 传播灵活且高效,因为 ID 可以简单地在两个关系之间传播,只需要少量的数据传输和更多的存储空间。通过这样做,可以计算多个关系中的谓词,而冗余计算很少。元组 ID 传播必须与... 阅读更多

什么是 BLAST 局部比对算法?

Ginni
更新于 2022年2月17日 11:47:02

448 次浏览

BLAST 算法由 Altschul、Gish、Miller 大约在 1990 年在国家生物技术信息中心 (NCBI) 开发。BLAST 用于推导序列之间的功能和进化关系,并有助于识别基因家族成员。NCBI 网站包含几个常见的 BLAST 数据库。根据它们的内容,它们被组合成核苷酸和蛋白质数据库。NCBI 还支持专门的 BLAST 数据库,包括载体筛选数据库,还有多个生物体的几个基因组数据库和跟踪数据库。BLAST 使用启发式方法来发现查询序列和数据库之间最大的局部比对。BLAST 提高了完整的... 阅读更多

比较和比对生物序列为什么有用?

Ginni
更新于 2022年2月17日 11:45:18

93 次浏览

比对依赖于这样一个事实:所有生物体都通过进化相互关联。这利用了在进化中彼此更接近的物种的核苷酸(DNA、RNA)和蛋白质序列必须表现出更高的相似性。比对是将序列排列起来以获得最大程度同一性的阶段,这也定义了序列之间相似性的程度。如果两个序列来自共同祖先,则它们是同源的。通过序列比对获得的相似性程度可用于确定两个序列之间同源性的可能性。这种比对支持确定... 阅读更多

什么是 GSP?

Ginni
更新于 2022年2月17日 11:42:10

691 次浏览

GSP 代表广义序列模式。它是一种由 Srikant 和 Agrawal 在 1996 年提出的序列模式挖掘方法。它是他们用于普通项目集挖掘的开创性算法(称为 Apriori)的扩展。GSP 需要序列模式的自下而上的性质,并采用多遍的生成和测试方法。该算法如下。在数据库的第一次扫描中,它可以发现一些频繁项,即那些具有最小支持的项。每个项目都会产生一个包含该项目的 1-事件频繁序列。每次后续传递都从一组种子序列模式和一组... 阅读更多

广告