找到关于数据库的6705 篇文章

什么是Web使用挖掘?

Ginni
更新于 2022年2月17日 12:34:11

4K+ 次浏览

Web 使用挖掘用于从 Web 日志数据中提取有用的数据、信息和知识,并有助于识别用户对网页的访问模式。在挖掘中,Web 资源管理人员会考虑网站访问者的请求数据,这些数据以 Web 服务器日志的形式构成。网页集的内容和机制遵循网页作者的意图,而单个请求则显示用户如何查看这些网页。Web 使用挖掘可以揭示网页设计者未曾预料到的关系。一个 Web 服务器……阅读更多

我们如何使用中心页查找权威页面?

Ginni
更新于 2022年2月17日 12:32:25

480 次浏览

中心页是一组支持指向权威页面的链接的网页。中心页可能并不突出,也可能存在一些指向它们的链接;但是,它们支持指向特定主题上的一组突出网站的链接。此类页面可以是单个主页上推荐链接的列表,包括课程主页上推荐的参考网站,或商业网站上的专业汇编资源文档。中心页在隐式地赋予目标主题权威性方面起着至关重要的作用。一般来说,一个好的中心页是指向多个优秀权威页面的页面;一个好的……阅读更多

什么是文档聚类分析?

Ginni
更新于 2022年2月17日 12:30:24

2K+ 次浏览

文档聚类是组织文件的重要无监督技术。当文档表示为词向量时,可以应用聚类方法。文档空间通常具有较高的维度,范围从几百到几千不等。由于维数灾难,最好先将文档投影到低维子空间中,在这个子空间中,文档空间的语义结构变得清晰。在低维语义空间中,可以使用传统的聚类算法。文档聚类分析有几种方法,如下所示:谱聚类 - 谱聚类方法首先执行谱……阅读更多

如何进行自动文档分类?

Ginni
更新于 2022年2月17日 12:20:22

139 次浏览

自动文档分类是一项重要的文本挖掘服务,因为存在大量的在线文件,能够自动地将这些记录组织成类别以支持文档检索和后续分析是无限的,但也很重要。文档分类已用于自动主题标记(即为文档分配标签)、主题目录构建以及识别文档写作风格和定义与一组文档相关的超链接的目标。一般的过程如下:首先,将一组预分类文件作为训练集。分析训练集以……阅读更多

使用统计技术进行空间数据挖掘怎么样?

Ginni
更新于 2022年2月17日 11:55:56

371 次浏览

统计空间数据分析一直是探索空间数据和分析地理数据的一种著名技术。术语地统计学与连续地理区域相关,而术语空间统计学与离散空间相关。在一个管理非空间记录的统计模型中,通常会考虑不同数据区域之间的统计独立性。但是,与传统数据集不同,空间分布数据之间不存在这种独立性,因为在现实中,空间对象通常是相互关联的,或者更准确地说是在空间上共存的,这意味着两个对象的位置越接近,它们共享相同属性的可能性就越大。例如……阅读更多

如何对这类数据进行泛化?

Ginni
更新于 2022年2月17日 11:53:37

474 次浏览

集合值属性可以是同构的或异构的。通常,集合值信息可以通过以下方式进行泛化:将集合中每个值泛化到其等效的更高级别概念;推导集合的通常行为,包括集合中的多个元素、集合中的类型或值范围、统计数据的加权平均值或集合形成的主要聚类。此外,可以使用多个泛化运算符来分析替代泛化路径来实现泛化。在这种方法中,泛化的结果是异构集合。示例 - 假设一个人的爱好是一个集合值……阅读更多

什么是元组 ID 传播?

Ginni
更新于 2022年2月17日 11:49:00

267 次浏览

元组 ID 传播是一种实现虚拟连接的方法,它极大地提高了多关系分类的效率。它们不是物理地连接关系,而是通过将目标元组的 ID 连接到非目标关系中的元组来虚拟地组合它们。在这种方法中,可以计算谓词,就好像实现了物理连接一样。元组 ID 传播灵活且有效,因为 ID 可以简单地在两个关系之间传播,只需要少量的数据传输和更多的存储空间。通过这样做,可以计算多个关系中的谓词,而冗余计算很少。元组 ID 传播必须与……阅读更多

什么是 BLAST 局部比对算法?

Ginni
更新于 2022年2月17日 11:47:02

448 次浏览

BLAST 算法由 Altschul、Gish、Miller 等人于 1990 年左右在美国国家生物技术信息中心 (NCBI) 提出。BLAST 用于推导序列之间的功能和进化关系,并有助于识别基因家族的成员。NCBI 网站包含多个常用的 BLAST 数据库。根据它们的内容,它们被组合成核苷酸和蛋白质数据库。NCBI 还支持专门的 BLAST 数据库,包括载体筛选数据库,有多个生物体的多个基因组数据库以及跟踪数据库。BLAST 使用启发式方法来发现查询序列和数据库之间最大的局部比对。BLAST 提高了完整的……阅读更多

比较和比对生物序列有什么用?

Ginni
更新于 2022年2月17日 11:45:18

93 次浏览

比对依赖于这样一个事实:所有生物体都通过进化相关联。这利用了在进化中彼此更接近的物种的核苷酸(DNA、RNA)和蛋白质序列必须表现出更高的相似性。比对是将序列排列起来以获得最大程度一致性的阶段,这也定义了序列之间相似性的程度。如果两个序列发送一个共同祖先,则这两个序列是同源的。通过序列比对获得的相似性程度有助于确定两个序列之间同源的可能性。这种比对支持决定……阅读更多

什么是 GSP?

Ginni
更新于 2022年2月17日 11:42:10

691 次浏览

GSP 代表广义序列模式 (Generalised Sequential Patterns)。这是一种序列模式挖掘方法,由 Srikant 和 Agrawal 于 1996 年提出。它是他们用于常规项目集挖掘的开创性算法 Apriori 的扩展。GSP 利用序列模式的下闭包特性,并采用多遍的生成-测试方法。该算法如下:在对数据库的第一次扫描中,它可以发现一些频繁项,即那些支持度不低于最小支持度的项。每个项都会产生一个包含该项的 1-事件频繁序列。后续的每一遍都从一组种子序列模式开始,以及……阅读更多

广告