找到关于数据结构的1861篇文章

什么是文档聚类分析?

Ginni
更新于2022年2月17日 12:30:24

2K+ 次浏览

文档聚类是组织文件的一种重要无监督技术。当文档表示为词向量时,可以应用聚类方法。文档空间通常具有高维度,范围从几百到几千不等。由于维数灾难,首先将文档投影到低维子空间中是有意义的,在该子空间中,文档空间的语义结构变得清晰。在低维语义空间中,可以使用传统的聚类算法。文档聚类分析有几种方法,如下所示:谱聚类 - 谱聚类方法首先执行谱……阅读更多

如何进行自动文档分类?

Ginni
更新于2022年2月17日 12:20:22

139次浏览

自动文档分类是一项重要的文本挖掘服务,因为存在大量的在线文件,能够自动地将这些记录组织成类别以支持文档检索和后续分析是无限的,但也是重要的。文档分类已用于自动主题标记(即为文档分配标签)、主题目录构建以及识别文档写作风格和定义与一组文档相关的超链接的目标。一般的过程如下:首先,将一组预分类的文件作为训练集。分析训练集以……阅读更多

使用统计技术进行空间数据挖掘怎么样?

Ginni
更新于2022年2月17日 11:55:56

371次浏览

统计空间数据分析一直是探索空间数据和分析地理数据的一种著名技术。地统计学与连续地理区域有关,而空间统计学与离散空间有关。在一个管理非空间记录的统计模型中,通常认为不同数据区域之间存在统计独立性。然而,与传统数据集不同,空间分布数据之间不存在这种独立性,因为实际上,空间对象通常是相互关联的,或者更准确地说是在空间上共存的,因为两个对象的位置越接近,它们共享相同属性的可能性就越大。例如……阅读更多

如何对这些数据进行泛化?

Ginni
更新于2022年2月17日 11:53:37

474次浏览

集合值属性可以是同构或异构类型的。通常,集合值信息可以通过以下方式泛化:将集合中每个值泛化到其等效的高级概念推导出集合的通常行为,包括集合中的多个元素、集合中的类型或值范围、统计数据的加权平均值或集合形成的主要集群。此外,可以使用多个泛化运算符来分析替代泛化路径来实现泛化。在这种方法中,泛化的结果是一个异构集合。示例 - 假设一个人的爱好是一个集合值……阅读更多

什么是元组ID传播?

Ginni
更新于2022年2月17日 11:49:00

267次浏览

元组ID传播是一种实现虚拟连接的方法,它极大地提高了多关系分类的有效性。它们不是物理地连接关系,而是通过将目标元组的ID连接到非目标关系中的元组来虚拟地组合它们。在这种方法中,可以计算谓词,就像实现了物理连接一样。元组ID传播灵活且有效,因为ID可以简单地在两个关系之间传播,只需要少量的数据传输和更多的存储空间。通过这样做,可以计算多个关系中的谓词,而冗余计算很少。元组ID传播必须与……阅读更多

什么是BLAST局部比对算法?

Ginni
更新于2022年2月17日 11:47:02

448次浏览

BLAST算法由Altschul、Gish、Miller等人于1990年左右在美国国家生物技术信息中心(NCBI)开发。BLAST用于推导序列之间的功能和进化关系,并帮助识别基因家族成员。NCBI网站包含几个常用的BLAST数据库。根据其内容,它们被组合成核苷酸和蛋白质数据库。NCBI还支持专门的BLAST数据库,包括载体筛选数据库,有多个生物体的几个基因组数据库和痕迹数据库。BLAST使用启发式方法来发现查询序列和数据库之间最大的局部比对。BLAST增加了完整的……阅读更多

比较和比对生物序列有什么用?

Ginni
更新于2022年2月17日 11:45:18

93次浏览

比对依赖于所有生物体都通过进化相关联这一事实。这利用了在进化中彼此更接近的物种的核苷酸(DNA、RNA)和蛋白质序列必须表现出更高的相似性。比对是将序列排列起来以获得最大程度一致性的阶段,这也定义了序列之间相似性的程度。如果两个序列发送一个共同的祖先,则它们是同源的。通过序列比对获得的相似性程度可以有助于确定两个序列之间同源的可能性。这种比对支持决定……阅读更多

什么是GSP?

Ginni
更新于2022年2月17日 11:42:10

691次浏览

GSP代表广义顺序模式。它是一种顺序模式挖掘方法,由Srikant和Agrawal于1996年提出。它是他们用于常用项目集挖掘的开创性算法(称为Apriori)的扩展。GSP需要顺序模式的向下封闭性质,并采用多遍的创建和测试方法。算法如下。在数据库的第一次扫描中,它可以发现一些频繁项,即那些具有最小支持的项。每个项目都会产生一个包含该项目的1-事件频繁序列。每次后续传递都从顺序模式的种子组和……阅读更多

什么是顺序模式挖掘?

Ginni
更新于2022年2月17日 11:39:40

12K+ 次浏览

顺序模式挖掘是挖掘频繁出现的系列事件或子序列作为模式。顺序模式的一个例子是购买佳能数码相机的用户会在一个月内购买惠普彩色打印机。对于零售信息,顺序模式有利于货架摆放和促销。这个行业以及电信和其他企业还可以使用顺序模式进行目标营销、用户留存和多项任务。顺序模式可用于多个领域,例如Web访问模式分析、天气预报、生产过程和Web入侵检测。给定一组序列,其中每个……阅读更多

什么是STREAM?

Ginni
更新于2022年2月17日 11:38:00

329次浏览

STREAM是一种单遍常数空间近似算法,它被提出用于解决k-中值问题。k-中值问题是将N个数据点聚类成k个聚类或组,使得点与其被分配到的聚类中心之间的平方误差和(SSQ)最小化。其思想是将相似的点分配到同一个聚类中,其中这些点与其他聚类中的点不同。在流数据模型中,数据点只能被查看一次,并且内存和时间是有限的。它可以实现高质量的聚类,STREAM算法以……阅读更多

广告