找到关于数据结构的1861 篇文章

什么是 DENCLUE?

Ginni
更新于 2022年2月16日 12:38:40

4K+ 次浏览

聚类是重要的数据挖掘方法,用于知识发现。聚类是一种探索性数据分析方法,它将多个数据对象分类到相同的组中,例如集群。DENCLUE 代表基于密度的聚类。它是一种基于一组密度分布函数的聚类方法。DENCLUE 算法使用依赖于核密度估计的聚类模型。一个集群由预测密度函数的局部最大值表示。DENCLUE 不适用于均匀分布的记录。在高维空间中,由于维数灾难,数据总是看起来像均匀分布。因此,DENCLUDE 在……阅读更多

什么是 DBSCAN?

Ginni
更新于 2022年2月16日 12:26:55

5K+ 次浏览

DBSCAN 代表基于密度的应用空间聚类,带有噪声。它是一种基于密度的聚类算法。该算法将密度足够高的区域增加到集群中,并在带有噪声的空间数据库中查找任意架构的集群。它将集群表示为密度连接点的最大组。基于密度的聚类的概念包括许多新的定义,如下所示:给定对象的半径 ε 内的邻域称为该对象的 ε 邻域。如果对象的 ε 邻域包含至少最小数量 MinPts 的对象,则该对象称为核心……阅读更多

什么是 ROCK?

Ginni
更新于 2022年2月16日 12:24:47

4K+ 次浏览

ROCK 代表使用链接的鲁棒聚类。它是一种层次聚类算法,分析具有分类属性的数据的链接概念(两个对象之间共同邻居的数量)。它表明这种距离数据在对分类信息进行聚类时无法导致高质量的聚类。此外,大多数聚类算法在聚类时仅创建点之间的相似性,即在每一步中,组合成单个聚类的点。这种“局部”方法容易出现错误。例如,两个不同的集群可以有一些靠近的点或异常值;因此,依赖于点之间的相似性来……阅读更多

k-means 算法是如何工作的?

Ginni
更新于 2022年2月16日 12:23:12

401 次浏览

k-means 算法创建输入参数 k,并将一组 n 个对象分成 k 个集群,以便生成的集群内相似性较大,而集群间相似性较低。集群相似性是根据集群中对象的平均值计算的,这可以看作是集群的质心或重心。k-means 算法如下所示。首先,它可以随机选择 k 个对象,每个对象最初定义一个集群均值或中心。对于其余每个对象,创建一个对象到它所属的集群……阅读更多

什么是二元变量?

Ginni
更新于 2022年2月16日 12:18:00

2K+ 次浏览

二元变量只有两种状态,例如 0 或 1,其中 0 表示变量不存在,1 表示变量存在。例如,给定表示患者的变量 smoker,1 表示患者吸烟,而 0 表示患者不吸烟。可以认为二元变量就像它们是区间尺度的,这会导致误导性的聚类结果。因此,定义为二元数据的方法对于计算差异至关重要。有一种方法涉及根据给定的二元数据计算差异矩阵。如果某些二元变量被认为具有……阅读更多

什么是区间尺度变量?

Ginni
更新于 2022年2月16日 12:01:16

2K+ 次浏览

区间尺度变量是近似线性尺度的连续数据。例如,重量和高度、经纬度坐标(例如,在对房屋进行聚类时)以及气温。使用的测量单位会影响聚类分析。例如,将高度的数据单位从米改为英寸,或将重量的数据单位从千克改为磅,会导致不同的聚类结构。通常,以较小的单位定义变量会导致该变量的范围更大,因此对生成的聚类结构的影响更大。为了避免依赖于数据单位的选择,数据必须……阅读更多

什么是 ROC 曲线?

Ginni
更新于 2022年2月16日 11:53:36

1K+ 次浏览

ROC 代表接收者操作特征。ROC 曲线是分析两个分类模型的便捷的可视化工具。ROC 曲线源于二战期间为搜索雷达图像而产生的信号检测理论。ROC 曲线显示给定模型的真阳性率或灵敏度(识别出的阳性元组的比例)和假阳性率(错误地识别为阳性的阴性元组的比例)之间的权衡。给定一个两类问题,它使我们能够预测模型准确识别“是”的情况的比率与……阅读更多

什么是广义线性模型?

Ginni
更新于 2022年2月16日 11:52:19

943 次浏览

广义线性模型定义了线性回归可用于对分类响应变量建模的理论基础。在广义线性模型中,响应变量 y 的方差是 y 的平均值的函数,这与线性回归不同,在线性回归中,y 的方差是常数。广义线性模型 (GLM) 是传统线性模型的扩展。此算法通过最大化对数似然函数来拟合信息中的广义线性模型。弹性网络惩罚可用于参数正则化。模型拟合计算是并行的、非常快的,并且对于具有……阅读更多

什么是 CBR?

Ginni
更新于 2022年2月16日 11:50:51

401 次浏览

CBR 代表基于案例的推理。CBR 分类器需要一个问题解决方案数据库来阐明新问题。与保存训练元组为欧几里德空间中的点的最近邻分类器不同,CBR 将用于解决问题的元组或“案例”保存为复杂的符号表示。CBR 的各种商业应用包括客户服务帮助台的问题解决,其中案例描述产品相关的诊断问题。CBR 已用于工程和法律等领域,其中案例分别为技术设计或法律裁决。医学教育是 CBR 的一个应用,其中患者病史和治疗用于支持诊断和考虑……阅读更多

贝叶斯信念网络是如何学习的?

Ginni
更新于 2022年2月16日 11:49:01

316 次浏览

贝叶斯分类器是统计分类器。它们可以预测类别成员概率,包括给定样本属于特定类别的概率。贝叶斯分类器在可以处理大型数据库时也显示出较高的效率和速度。一旦定义了类别,系统就应该推断控制分类的规则,因此系统应该能够找到每个类别的描述。这些描述应该只参考训练集的预测属性,以便只有正例应该满足描述,而不是负例。如果规则的描述涵盖……阅读更多

广告