数据挖掘 - 主题



数据挖掘的理论基础

数据挖掘的理论基础包括以下概念:

  • 数据约简 - 该理论的基本思想是减少数据表示,以准确性换取速度,以满足对非常大的数据库上的查询快速获得近似答案的需求。一些数据约简技术如下:

    • 奇异值分解

    • 小波

    • 回归

    • 对数线性模型

    • 直方图

    • 聚类

    • 抽样

    • 索引树的构建

  • 数据压缩 - 该理论的基本思想是用以下方面对给定数据进行编码压缩:

    • 关联规则

    • 决策树

    • 集群

  • 模式发现 - 该理论的基本思想是在数据库中发现出现的模式。以下是一些有助于该理论的领域:

    • 机器学习

    • 神经网络

    • 关联挖掘

    • 序列模式匹配

    • 聚类

  • 概率论 - 该理论基于统计理论。该理论背后的基本思想是发现随机变量的联合概率分布。

  • 概率论 - 根据该理论,数据挖掘发现的模式仅在可以用于某个企业的决策过程中时才有意义。

  • 微观经济学观点 - 根据该理论,数据库模式由存储在数据库中的数据和模式组成。因此,数据挖掘是在数据库上执行归纳的任务。

  • 归纳数据库 - 除了面向数据库的技术外,还有一些可用于数据分析的统计技术。这些技术也可以应用于科学数据以及经济和社会科学中的数据。

统计数据挖掘

一些统计数据挖掘技术如下:

  • 回归 - 回归方法用于从一个或多个预测变量预测响应变量的值,其中变量为数值型。以下是回归的形式:

    • 线性

    • 多元

    • 加权

    • 多项式

    • 非参数

    • 稳健

  • 广义线性模型 - 广义线性模型包括:

    • 逻辑回归

    • 泊松回归

    模型的泛化允许以类似于使用线性回归对数值响应变量建模的方式将分类响应变量与一组预测变量相关联。

  • 方差分析 - 此技术分析:

    • 用数值响应变量描述的两个或多个总体实验数据。

    • 一个或多个分类变量(因子)。

  • 混合效应模型 - 这些模型用于分析分组数据。这些模型描述了响应变量与根据一个或多个因素分组的数据中的一些协变量之间的关系。

  • 因子分析 - 因子分析用于预测分类响应变量。此方法假设自变量服从多元正态分布。

  • 时间序列分析 - 分析时间序列数据的常用方法如下:

    • 自回归方法。

    • 单变量 ARIMA(自回归积分移动平均)建模。

    • 长记忆时间序列建模。

可视化数据挖掘

可视化数据挖掘使用数据和/或知识可视化技术从大型数据集中发现隐式知识。可视化数据挖掘可以看作是以下学科的集成:

  • 数据可视化

  • 数据挖掘

可视化数据挖掘与以下内容密切相关:

  • 计算机图形学

  • 多媒体系统

  • 人机交互

  • 模式识别

  • 高性能计算

通常,数据可视化和数据挖掘可以通过以下方式集成:

  • 数据可视化 - 数据库或数据仓库中的数据可以以多种视觉形式查看,如下所示:

    • 箱线图

    • 3D 立方体

    • 数据分布图

    • 曲线

    • 曲面

    • 链接图等。

  • 数据挖掘结果可视化 - 数据挖掘结果可视化是以视觉形式呈现数据挖掘的结果。这些视觉形式可以是散点图、箱线图等。

  • 数据挖掘过程可视化 - 数据挖掘过程可视化呈现数据挖掘的多个过程。它允许用户查看数据的提取方式。它还允许用户查看数据是从哪个数据库或数据仓库中清理、集成、预处理和挖掘的。

音频数据挖掘

音频数据挖掘利用音频信号来指示数据模式或数据挖掘结果的特征。通过将模式转换为声音和音乐,我们可以聆听音调和曲调,而不是观看图片,以识别任何有趣的东西。

数据挖掘与协同过滤

如今,消费者在购物时会遇到各种商品和服务。在实时客户交易期间,推荐系统通过提供产品推荐来帮助消费者。协同过滤方法通常用于向客户推荐产品。这些建议基于其他客户的意见。

广告