找到 1861 篇文章 关于数据结构

什么是 DENCLUE?

Ginni
更新于 2022-02-16 12:38:40

4K+ 浏览量

聚类是知识发现的重要数据挖掘方法。聚类是一种探索性数据分析方法,它将多个数据对象分类到相同的组中,例如聚类。DENCLUE 代表基于密度的聚类。它是一种基于一组密度分布函数的聚类方法。DENCLUE 算法使用一个基于核密度估计的聚类模型。一个聚类由预测密度函数的局部最大值表示。DENCLUE 不对具有均匀分布的记录进行操作。在高维空间中,由于维数灾难,数据总是看起来像均匀分布。因此,DENCLUDE 在... 阅读更多

什么是 DBSCAN?

Ginni
更新于 2022-02-16 12:26:55

5K+ 浏览量

DBSCAN 代表基于密度的应用空间聚类噪声。它是一种基于密度的聚类算法。该算法将具有足够高密度的区域聚集成簇,并在带有噪声的空间数据库中找到任意架构的簇。它将簇表示为密度连接点的最大组。基于密度的聚类概念包括以下一些新定义-给定对象的半径 ε 内的邻域称为该对象的 ε 邻域。如果对象的 ε 邻域至少包含最小数量 MinPts 的对象,则该对象称为核心... 阅读更多

什么是 ROCK?

Ginni
更新于 2022-02-16 12:24:47

4K+ 浏览量

ROCK 代表使用链接的稳健聚类。它是一种层次聚类算法,它分析链接的概念(两个对象之间共同邻居的数量)以处理具有分类属性的数据。它表明,在对分类信息进行聚类时,此类距离数据无法导致高质量的聚类。此外,大多数聚类算法在聚类时仅创建点之间的相似性,即在每一步中,将组合成单个聚类的点。这种“局部”方法容易出错。例如,两个不同的聚类可以具有一些靠近的点或异常值;因此,依靠点之间的相似性来... 阅读更多

k 均值算法是如何工作的?

Ginni
更新于 2022-02-16 12:23:12

401 浏览量

k 均值算法创建输入参数 k,并将一组 n 个对象划分为 k 个聚类,以便得到的簇内相似性大,但簇间相似性低。簇相似性是根据簇中对象的平均值计算的,这可以被视为簇的质心或重心。k 均值算法的执行过程如下。首先,它可以随机选择 k 个对象,每个对象最初定义一个簇均值或中心。对于其余每个对象,创建一个对象到它所属的簇... 阅读更多

什么是二元变量?

Ginni
更新于 2022-02-16 12:18:00

2K+ 浏览量

二元变量只有两种状态,例如 0 或 1,其中 0 表示变量不存在,1 表示变量存在。例如,给定变量吸烟者定义患者,1 表示患者吸烟,而 0 表示患者不吸烟。可以认为二元变量就像它们是区间尺度的,这会导致误导性的聚类结果。因此,为二元数据定义的方法对于计算差异至关重要。有一种方法涉及从给定的二元数据计算差异矩阵。如果某些二元变量被认为具有... 阅读更多

什么是区间尺度变量?

Ginni
更新于 2022-02-16 12:01:16

2K+ 浏览量

区间尺度变量是近似线性尺度的连续数据。例如重量和高度、经纬度坐标(例如,在对房屋进行聚类时)以及天气温度。使用的测量单位会影响聚类分析。例如,将高度的数据单位从米更改为英寸,或将重量的数据单位从公斤更改为磅,会导致不同的聚类结构。通常,以较小的单位定义变量会导致该变量的范围更大,因此对生成的聚类结构的影响更大。它可以防止依赖于数据单位的选择,数据必须是... 阅读更多

什么是 ROC 曲线?

Ginni
更新于 2022-02-16 11:53:36

1K+ 浏览量

ROC 代表接收者操作特征。ROC 曲线是分析两个分类模型的便捷可视化工具。ROC 曲线源自信号检测理论,该理论产生于二战期间用于搜索雷达图像。ROC 曲线显示了给定模型的真阳性率或灵敏度(识别出的阳性元组的比例)与假阳性率(错误地识别为阳性的阴性元组的比例)之间的权衡。给定一个两类问题,它使我们能够预测模型准确识别“是”案例的速率与模型错误识别“否”案例的速率之间的权衡... 阅读更多

什么是广义线性模型?

Ginni
更新于 2022-02-16 11:52:19

943 浏览量

广义线性模型定义了线性回归可用于对分类响应变量建模的理论基础。在广义线性模型中,响应变量 y 的方差是 y 的平均值的函数,这与线性回归不同,在线性回归中,y 的方差是常数。广义线性模型 (GLM) 是传统线性模型的扩展。该算法通过最大化对数似然函数来拟合广义线性模型。弹性网络惩罚可用于参数正则化。模型拟合计算是并行的,完全快速的,并且对于具有... 阅读更多

什么是 CBR?

Ginni
更新于 2022-02-16 11:50:51

401 浏览量

CBR 代表基于案例的推理。CBR 分类器需要一个问题解决方案数据库来澄清新问题。与最近邻分类器不同,最近邻分类器将训练元组保存为欧几里得空间中的点,CBR 将元组或“案例”保存为解决问题的复杂符号表示。CBR 的各种商业应用包括客户服务帮助台的问题解决,其中案例描述产品相关的诊断问题。CBR 已用于工程和法律等领域,其中案例分别为技术设计或法律裁决。医学教育是 CBR 的一个应用,其中患者病史和治疗方案用于支持诊断和考虑... 阅读更多

贝叶斯信念网络是如何学习的?

Ginni
更新于 2022-02-16 11:49:01

316 浏览量

贝叶斯分类器是统计分类器。它们可以预测类别成员概率,包括给定样本属于特定类别的概率。贝叶斯分类器在处理大型数据库时也显示出较高的效率和速度。一旦定义了类别,系统应该推断出控制分类的规则,因此系统应该能够找到每个类别的描述。这些描述应该只参考训练集的预测属性,以便只有正例满足描述,而不是负例。如果规则的描述涵盖了... 阅读更多

广告

© . All rights reserved.