找到 6705 篇文章 关于数据库

这些统计信息如何用于查询应答?

Ginni
更新于 2022 年 2 月 17 日 10:54:39

104 次浏览

统计参数可用于自上而下、基于网格的方法,如下所示。首先,从分层体系结构中确定一个层,查询应答过程从此层开始。此层通常包含少量单元格。对于当前层中的每个单元格,它可以计算置信区间(或估计概率范围),以反映单元格与给定查询的相关性。高级单元格的统计参数可以简单地从低级单元格的参数计算得出。这些参数包含以下内容 - 属性无关参数、计数以及属性相关参数、均值、标准差 (stdev)、最小值 (min) 等... 阅读更多

什么是 STING?

Ginni
更新于 2022 年 2 月 16 日 12:44:19

746 次浏览

STING 代表统计信息网格。STING 是一种基于网格的多分辨率聚类方法,其中空间区域被划分为矩形单元格。有几种此类矩形单元格的方法等效于多种分辨率方法,并且这些单元格形成一个分层结构,每个高级单元格分离以形成下一级中的多个单元格。每个网格单元格中属性的统计数据(包括均值、最大值和最小值)是预先计算和存储的。高级单元格的统计参数可以简单地从低级单元格的参数计算得出。这些参数包含以下内容... 阅读更多

什么是 DENCLUE?

Ginni
更新于 2022 年 2 月 16 日 12:38:40

4K+ 次浏览

聚类是知识发现的重要数据挖掘方法。聚类是一种探索性数据分析方法,它将多个数据对象分类到相同的组中,例如聚类。DENCLUE 代表基于密度的聚类。它是一种依赖于一组密度分布函数的聚类方法。DENCLUE 算法使用依赖于核密度估计的聚类模型。聚类由预测密度函数的局部最大值表示。DENCLUE 不会对具有均匀分布的记录进行操作。在高维空间中,由于维数灾难,数据总是看起来像均匀分布。因此,DENCLUDE 在... 阅读更多

什么是 DBSCAN?

Ginni
更新于 2022 年 2 月 16 日 12:26:55

5K+ 次浏览

DBSCAN 代表基于密度的应用空间聚类噪声。它是一种基于密度的聚类算法。该算法将具有足够高密度的区域增加到聚类中,并在带有噪声的空间数据库中找到任意架构的聚类。它将聚类表示为密度连接点的最大组。基于密度的聚类的概念包括许多新的定义,如下所示 - 给定对象的半径 ε 内的邻域称为该对象的 ε 邻域。如果对象的 ε 邻域包含至少一个最小数量,MinPts,的对象,则该对象称为核心... 阅读更多

什么是 ROCK?

Ginni
更新于 2022 年 2 月 16 日 12:24:47

4K+ 次浏览

ROCK 代表使用链接的鲁棒聚类。它是一种层次聚类算法,分析具有分类属性的数据的链接概念(两个对象之间共同邻居的数量)。它显示,在对分类信息进行聚类时,此类距离数据不会导致高质量的聚类。此外,大多数聚类算法在聚类时仅创建点之间的相似性,即在每个步骤中,将组合到单个聚类中的点。这种“局部”方法容易出现错误。例如,两个不同的聚类可以有一些靠近的点或异常值;因此,依靠点之间的相似性来... 阅读更多

k 均值算法是如何工作的?

Ginni
更新于 2022 年 2 月 16 日 12:23:12

401 次浏览

k 均值算法创建输入参数 k,并将一组 n 个对象划分为 k 个聚类,以便生成的聚类内相似性很大,但聚类间类比性很低。聚类相似性是根据聚类中对象的平均值计算的,可以将其视为聚类的质心或重心。k 均值算法如下进行。首先,它可以随机选择 k 个对象,每个对象最初定义一个聚类均值或中心。对于每个剩余的对象,都会创建一个对象到它所属的聚类... 阅读更多

什么是二元变量?

Ginni
更新于 2022 年 2 月 16 日 12:18:00

2K+ 次浏览

二元变量只有两种状态,例如 0 或 1,其中 0 表示变量不存在,1 表示变量存在。例如,给定变量吸烟者定义患者,1 表示患者吸烟,而 0 表示患者不吸烟。可以考虑二元变量,如果它们是区间尺度的,会导致误导性的聚类结果。因此,定义为二元数据的方法对于计算差异至关重要。有一种方法涉及从给定的二元数据计算差异矩阵。如果一些二元变量被认为具有... 阅读更多

什么是区间尺度变量?

Ginni
更新于 2022 年 2 月 16 日 12:01:16

2K+ 次浏览

区间尺度变量是近似线性尺度的连续数据。例如重量和高度、经纬度坐标(例如,在对房屋进行聚类时)以及天气温度。使用的测量单位会影响聚类分析。例如,将高度的数据单位从米更改为英寸,或将重量从千克更改为磅,会导致多个聚类结构。一般来说,以较小的单位定义变量会导致该变量的范围更大,因此对最终的聚类架构产生更大的影响。它可以防止依赖于数据单位的选择,数据必须是... 阅读更多

什么是 ROC 曲线?

Ginni
更新于 2022 年 2 月 16 日 11:53:36

1K+ 次浏览

ROC 代表接收者操作特征。ROC 曲线是分析两个分类模型的便捷可视化工具。ROC 曲线来自二战期间为搜索雷达图像而产生的信号检测理论。ROC 曲线显示了给定模型的真阳性率或灵敏度(识别出的阳性元组的比例)与假阳性率(错误地识别为阳性的阴性元组的比例)之间的权衡。给定一个两类问题,它使我们能够预测模型准确识别“是”案例的比率与模型错误识别“否”案例的比率之间的权衡... 阅读更多

什么是广义线性模型?

Ginni
更新于 2022 年 2 月 16 日 11:52:19

943 次浏览

广义线性模型定义了线性回归可用于对分类响应变量建模的理论依据。在广义线性模型中,响应变量 y 的方差是 y 的平均值的函数,这与线性回归不同,在线性回归中,y 的方差是常数。广义线性模型 (GLM) 是传统线性模型的扩展。该算法通过最大化对数似然函数来拟合广义线性模型。弹性网络惩罚可用于参数正则化。模型拟合计算是并行的,非常快,并且对于具有... 阅读更多

广告