1K+ 次浏览
以下是一些基于Web的工具:Arbor Essbase Web——该工具提供向上、向下、横向钻取;切片和切块以及强大的报表功能,所有这些都用于OLAP。它还提供数据输入,例如完整的并发多用户写入功能。Arbor Essbase只是一个服务器产品,没有用户包,因此确保了其自身桌面客户端版本的市场。Web产品不恢复管理和开发结构,但它只恢复用户对查询和更新的访问权限。Information Advantage Web OLAP——该产品使用以服务器为中心的信使架构,由一个强大的分析引擎组成……阅读更多
6K+ 次浏览
FASMI 测试它可以用一种特定方法来表示OLAP应用程序的特性,而无需规定如何执行。快速——它定义了系统旨在在约五秒钟内向用户产生大多数响应,可理解的分析不超过一秒钟,很少有超过20秒。荷兰的独立研究表明,如果30秒内未收到结果,最终用户会认为流程已下降,除非系统需要他们报告需要更长时间,否则他们可能会点击“ALT+Ctrl+Delete”。分析——它……阅读更多
5K+ 次浏览
层次聚类技术通过将数据对象组合成一棵簇树来工作。层次聚类算法是自上而下或自下而上的。真实的层次聚类方法的质量因其在合并或拆分决策完成后无法进行调整而下降。簇的合并基于簇之间的距离。簇之间距离的常用度量如下,其中mi是簇Ci的均值,ni是Ci中的点数,|p – p’|是两点p和p’之间的距离。层次聚类方法的类型……阅读更多
330 次浏览
统计离群值检验分析两个假设;一个工作假设和一个不同的假设。工作假设H是一个陈述,即n个对象的整个数据集来自初始分布模型F,即H:oi Î F,其中i = 1, 2, n。如果没有统计上重要的证据支持其拒绝,则保留该假设。离群值检验检查对象oi相对于分布F是否本质上很大(或很小)。基于对数据的可用知识,已经提出了不同的检验统计量作为离群值检验。假设一些统计量……阅读更多
2K+ 次浏览
有各种聚类方法,如下所示:划分方法——给定一个包含n个对象或数据元组的数据库,划分方法将信息组合成k个分区,其中每个分区定义一个簇,并且k < n。它可以将数据分配到k个组中,这可以满足以下需求:每个组必须至少包含一个对象。每个对象都应准确地应用于一个组。给定k,即要构建的分区的数量,划分方法进行初始划分。然后,它使用迭代重新定位方法,尝试通过转换……阅读更多
3K+ 次浏览
聚类有各种应用,如下所示:可扩展性——一些聚类算法在包含少于200个数据对象的小型数据集中效果很好;但是,大型数据库可以包含数百万个对象。对给定大型数据集样本进行聚类可能会导致偏差结果。需要高度可扩展的聚类算法。处理不同类型属性的能力——一些算法旨在对基于区间的(数值)记录进行聚类。但是,应用程序可能需要对几种类型的数据进行聚类,包括二进制数据、分类(名义)数据和有序数据,或者这些数据类型的组合。发现……阅读更多
数据挖掘有各种挑战,如下所示:数据挖掘算法的效率和可扩展性——它可以有效地从数据库中的大量数据中提取数据,知识发现算法应该对大型数据库具有效率和可扩展性。具体来说,数据挖掘算法的运行时间应该在大型数据库中是可预测和可接受的。具有指数甚至通道阶多项式复杂度的算法将不会有效使用。数据挖掘结果的有用性、确定性和表达性——已识别的知识应该准确地描绘数据库的内容,并对特定应用程序有益。……阅读更多
10K+ 次浏览
数据挖掘是从存储在存储库中的大量数据中转移,使用包括统计和数学技术在内的模式识别技术,查找有用的新的相关性、模式和趋势的过程。它是对事实数据集的分析,以发现意料之外的关系,并以对数据所有者来说既合乎逻辑又有帮助的新方法总结记录。数据挖掘系统旨在促进将个人识别和分类到不同的组或细分市场中。从商业公司的角度来看,以及可能对整个行业的影响,它可以解释使用……阅读更多
8K+ 次浏览
数据挖掘是人工智能的一种形式,它使用感知模型、分析模型和多种算法来模拟人脑的技术。数据挖掘支持机器做出人类决策并创建人类选择。数据挖掘工具的用户将不得不指导机器规则、偏好,甚至经验才能拥有决策支持数据挖掘指标如下:有用性——有用性涉及多个指标,这些指标告诉我们模型是否提供有用的数据。例如,将保存位置与销售额关联起来的数据挖掘模型既可以准确可靠,……阅读更多
903 次浏览
KDD代表数据库中的知识发现。它定义了在数据中发现知识的广泛过程,并强调了特定数据挖掘技术的较高层次应用。它是许多领域研究人员感兴趣的领域,例如人工智能、机器学习、模式识别、数据库、统计学、专业系统的知识获取以及数据可视化。知识发现过程是迭代的和交互式的,包括九个步骤。该过程在每个阶段都是迭代的,这意味着可能需要转换回之前的操作。该过程在某种意义上具有多种富有想象力的方法,因为人们不能提出一个公式或创建……阅读更多