找到 413 篇文章 关于数据挖掘

这些统计信息如何用于查询解答?

Ginni
更新于 2022年2月17日 10:54:39

104 次查看

统计参数可用于自上而下、基于网格的方法,如下所示。首先,确定层次结构中用于启动查询解答过程的层。此层通常包含少量单元格。对于当前层中的每个单元格,它可以计算置信区间(或概率的估计范围),反映单元格与给定查询的相关性。高层单元格的统计参数可以简单地从低层单元格的参数计算得出。这些参数包含以下内容:属性无关参数、计数和属性相关参数、均值、标准差 (stdev)、最小值 (min)…… 阅读更多

什么是 STING?

Ginni
更新于 2022年2月16日 12:44:19

746 次查看

STING 代表统计信息网格 (Statistical Information Grid)。STING 是一种基于网格的多分辨率聚类方法,其中空间区域被划分为矩形单元格。有几种这样的矩形单元格方法相当于多种分辨率方法,这些单元格形成一个层次结构,每一高层单元格都分离成下一低层中的几个单元格。每个网格单元格中属性的统计数据(包括均值、最大值和最小值)是预先计算和存储的。高层单元格的统计参数可以简单地从低层单元格的参数计算得出。这些参数包含以下内容…… 阅读更多

什么是 DENCLUE?

Ginni
更新于 2022年2月16日 12:38:40

4K+ 次查看

聚类是知识发现的重要数据挖掘方法。聚类是一种探索性数据分析方法,它将多个数据对象分类到相同的组中,例如聚类。DENCLUE 代表基于密度的聚类 (Density-based Clustering)。它是一种依赖于一组密度分布函数的聚类方法。DENCLUE 算法使用依赖于核密度估计的聚类模型。聚类由预测密度函数的局部最大值表示。DENCLUE 不对具有均匀分布的记录进行操作。在高维空间中,由于维数灾难,数据总是看起来像均匀分布的。因此,DENCLUDE 在…… 阅读更多

什么是 DBSCAN?

Ginni
更新于 2022年2月16日 12:26:55

5K+ 次查看

DBSCAN 代表基于密度的应用空间聚类带有噪声 (Density-Based Spatial Clustering of Applications with Noise)。它是一种基于密度的聚类算法。该算法将具有足够高密度的区域增加到聚类中,并在具有噪声的空间数据库中找到任意结构的聚类。它将聚类表示为密度连接点的最大组。基于密度的聚类的概念包括许多新的定义,如下所示:给定对象的半径 ε 内的邻域称为该对象的 ε 邻域。如果对象的 ε 邻域至少包含最小数量 MinPts 的对象,则该对象被称为核心…… 阅读更多

什么是 ROCK?

Ginni
更新于 2022年2月16日 12:24:47

4K+ 次查看

ROCK 代表使用链接的鲁棒聚类 (Robust Clustering using links)。它是一种层次聚类算法,分析具有分类属性的数据的链接概念(两个对象之间的公共邻居数量)。它显示这种距离数据在对分类信息进行聚类时无法产生高质量的聚类。此外,大多数聚类算法在聚类时只创建点之间的相似性,即在每一步中,将组合成单个聚类的点。这种“局部”方法容易出现错误。例如,两个不同的聚类可能有一些靠近的点或异常值;因此,依靠点之间的相似性来…… 阅读更多

K-means 算法是如何工作的?

Ginni
更新于 2022年2月16日 12:23:12

401 次查看

K-means 算法创建输入参数 k,并将一组 n 个对象划分为 k 个聚类,以便生成的类内相似性很大,但类间相似性很低。聚类相似性是根据聚类中对象的平均值计算的,这可以看作是聚类的质心或重心。K-means 算法如下所示。首先,它可以随机选择 k 个对象,每个对象最初定义一个聚类均值或中心。对于其余每个对象,创建一个对象到它所属的聚类…… 阅读更多

什么是二元变量?

Ginni
更新于 2022年2月16日 12:18:00

2K+ 次查看

二元变量只有两种状态,例如 0 或 1,其中 0 表示变量不存在,1 表示变量存在。例如,给定定义患者的变量吸烟者,1 表示患者吸烟,而 0 表示患者不吸烟。可以认为二元变量就像区间标度一样,会导致误导性的聚类结果。因此,定义为二元数据的方法对于计算差异至关重要。有一种方法涉及从给定的二元数据计算差异矩阵。如果某些二元变量被认为具有…… 阅读更多

什么是区间标度变量?

Ginni
更新于 2022年2月16日 12:01:16

2K+ 次查看

区间标度变量是近似线性尺度的连续数据。例如重量和高度、经纬度坐标(例如,在对房屋进行聚类时)和天气温度。使用的测量单位会影响聚类分析。例如,将高度的数据单位从米更改为英寸,或将重量的数据单位从千克更改为磅,会导致几种聚类结构。一般来说,将变量定义为较小的单位会导致该变量的范围更大,因此对最终的聚类结构的影响更大。它可以防止依赖于数据单位的选择,数据必须是…… 阅读更多

什么是 ROC 曲线?

Ginni
更新于 2022年2月16日 11:53:36

1K+ 次查看

ROC 代表受试者工作特征 (Receiver Operating Characteristic)。ROC 曲线是分析两种分类模型的便捷可视化工具。ROC 曲线来自第二次世界大战期间为搜索雷达图像而产生的信号检测理论。ROC 曲线显示了给定模型的真阳性率或灵敏度(识别出的阳性元组的比例)和假阳性率(错误地识别为阳性的阴性元组的比例)之间的权衡。给定一个两类问题,它使我们能够预测模型能够准确识别“是”案例的比率与模型…… 阅读更多

什么是广义线性模型?

Ginni
更新于 2022年2月16日 11:52:19

943 次查看

广义线性模型定义了线性回归可用于对分类响应变量建模的理论基础。在广义线性模型中,响应变量 y 的方差是 y 的均值的函数,这与线性回归不同,在线性回归中,y 的方差是常数。广义线性模型 (GLM) 是传统线性模型的扩展。该算法通过最大化对数似然函数来拟合信息中的广义线性模型。弹性网络惩罚可用于参数正则化。模型拟合计算是并行的,非常快,并且对于具有……的模型来说非常有效地扩展 阅读更多

广告