找到 1861 篇文章 关于数据结构

什么是文档聚类分析?

Ginni
更新于 2022年2月17日 12:30:24

2K+ 次浏览

文档聚类是组织文件的一种重要技术,以无监督的方式进行。当文档表示为词向量时,可以应用聚类方法。文档空间通常具有高维度,范围从几百到几千不等。由于维数灾难,首先将文档投影到低维子空间中是有意义的,在该子空间中,文档空间的语义结构变得清晰。在低维语义空间中,可以使用传统的聚类算法。文档聚类分析有几种方法,如下所示:谱聚类 - 谱聚类方法首先执行谱…阅读更多

如何进行自动文档分类?

Ginni
更新于 2022年2月17日 12:20:22

139 次浏览

自动文档分类是一项重要的文本挖掘服务,因为存在大量的在线文件,能够自动地将这些记录组织成类别以支持文档检索和后续分析是无限的,但却是重要的。文档分类已被用于自动主题标记(即为文档分配标签)、主题目录构建以及识别文档写作风格和定义与一组文档相关的超链接的目标。一般过程如下:首先,一组预分类文件被作为训练集。分析训练集以…阅读更多

使用统计技术进行空间数据挖掘怎么样?

Ginni
更新于 2022年2月17日 11:55:56

371 次浏览

统计空间数据分析一直是探索空间数据和分析地理数据的一种著名技术。“地统计学”与连续地理区域相关,而“空间统计学”与离散空间相关。在一个管理非空间记录的统计模型中,人们通常认为不同数据区域之间具有统计独立性。然而,与传统数据集不同,空间分布数据之间不存在这种独立性,因为实际上,空间对象通常是相互关联的,或者更准确地说是在空间上共存的,这意味着两个对象越靠近,它们共享相同属性的可能性就越大。例如,…阅读更多

如何对这种数据进行泛化?

Ginni
更新于 2022年2月17日 11:53:37

474 次浏览

集合值属性可以是同质的或异质的。通常,集合值信息可以通过以下方式进行泛化:将集合中每个值泛化到其等效的更高层次概念;导出集合的通常行为,包括集合中的多个元素、集合中的类型或值范围、统计数据的加权平均值或集合形成的主要聚类。此外,可以使用多个泛化算子来分析替代泛化路径来实现泛化。在这种方法中,泛化的结果是一个异构集合。示例 - 假设一个人的爱好是一个集合值…阅读更多

什么是元组 ID 传播?

Ginni
更新于 2022年2月17日 11:49:00

267 次浏览

元组 ID 传播是一种实现虚拟连接的方法,它极大地提高了多关系分类的效率。它们不是物理地连接关系,而是通过将目标元组的 ID 连接到非目标关系中的元组来虚拟地组合它们。在这种方法中,可以计算谓词,就好像实现了物理连接一样。元组 ID 传播是灵活且有效的,因为 ID 可以简单地在两个关系之间传播,只需要少量的数据传输和更多的存储空间。通过这样做,可以计算多个关系中的谓词,而冗余计算很少。元组 ID 传播必须与…阅读更多

什么是 BLAST 局部比对算法?

Ginni
更新于 2022年2月17日 11:47:02

448 次浏览

BLAST 算法由 Altschul、Gish、Miller 大约在 1990 年在国家生物技术信息中心 (NCBI) 提出。BLAST 用于推导序列之间的功能和进化关系,并帮助识别基因家族成员。NCBI 网站包含几个常用的 BLAST 数据库。根据它们的内容,它们被组合成核苷酸和蛋白质数据库。NCBI 还支持专门的 BLAST 数据库,包括载体筛选数据库,有多个生物体的几个基因组数据库,以及跟踪数据库。BLAST 使用启发式方法来发现查询序列和数据库之间最大的局部比对。BLAST 增加了完整的…阅读更多

比较和比对生物序列为什么有用?

Ginni
更新于 2022年2月17日 11:45:18

93 次浏览

比对依赖于所有生物体都与进化相关的事实。这利用了在进化中彼此更接近的物种的核苷酸(DNA、RNA)和蛋白质序列必须表现出更高的相似性。比对是将序列排列起来以获得最大程度同一性的阶段,这也定义了序列之间相似性的程度。如果两个序列发送一个共同祖先,则这两个序列是同源的。通过序列比对获得的相似性程度有助于确定两个序列之间同源的可能性。这种比对支持决定…阅读更多

什么是 GSP?

Ginni
更新于 2022年2月17日 11:42:10

691 次浏览

GSP 代表广义顺序模式。它是由 Srikant 和 Agrawal 在 1996 年提出的一种顺序模式挖掘方法。它是他们对常用项目集挖掘的开创性算法的扩展,称为 Apriori。GSP 需要顺序模式的向下封闭特性,并采用多遍、学生创建和测试的方法。该算法如下。在数据库的第一次扫描中,它可以发现一些频繁项,即那些具有最小支持度的项。每个项目都会产生一个包含该项目的 1 事件频繁序列。每次后续传递都从种子顺序模式组和…阅读更多

什么是顺序模式挖掘?

Ginni
更新于 2022年2月17日 11:39:40

12K+ 次浏览

顺序模式挖掘是挖掘频繁出现的系列事件或子序列作为模式。顺序模式的一个实例是购买佳能数码相机的用户会在一个月内购买惠普彩色打印机。对于零售信息,顺序模式有利于货架摆放和促销。这个行业,以及电信和其他企业,也可以使用顺序模式进行目标营销、用户留存和多项任务。顺序模式可用于的几个领域包括 Web 访问模式分析、天气预报、生产过程和 Web 入侵检测。给定一组序列,其中每个…阅读更多

什么是 STREAM?

Ginni
更新于 2022年2月17日 11:38:00

329 次浏览

STREAM 是一种单遍、常数元素近似算法,它是为 k-均值问题提出的。k-均值问题是将 N 个数据点聚类成 k 个聚类或组,使得点与其分配的聚类中心之间的平方误差和 (SSQ) 最小化。其思想是将相似的点分配到同一个聚类中,其中这些点与其他聚类中的点不同。在流数据模型中,数据点只能看到一次,并且内存和时间有限。它可以实现高质量的聚类,STREAM 算法以…阅读更多

广告