- 数据挖掘教程
- 数据挖掘 - 首页
- 数据挖掘 - 概述
- 数据挖掘 - 任务
- 数据挖掘 - 问题
- 数据挖掘 - 评估
- 数据挖掘 - 术语
- 数据挖掘 - 知识发现
- 数据挖掘 - 系统
- 数据挖掘 - 查询语言
- 分类与预测
- 数据挖掘 - 决策树归纳
- 数据挖掘 - 贝叶斯分类
- 基于规则的分类
- 数据挖掘 - 分类方法
- 数据挖掘 - 聚类分析
- 数据挖掘 - 挖掘文本数据
- 数据挖掘 - 挖掘万维网
- 数据挖掘 - 应用与趋势
- 数据挖掘 - 主题
- 数据挖掘有用资源
- 数据挖掘 - 快速指南
- 数据挖掘 - 有用资源
- 数据挖掘 - 讨论
数据挖掘 - 查询语言
数据挖掘查询语言 (DMQL) 由 Han、Fu、Wang 等人针对 DBMiner 数据挖掘系统提出。数据挖掘查询语言实际上是基于结构化查询语言 (SQL)。可以设计数据挖掘查询语言来支持临时和交互式数据挖掘。此 DMQL 提供用于指定原语的命令。DMQL 也可以与数据库和数据仓库一起使用。DMQL 可用于定义数据挖掘任务。特别是,我们检查如何在 DMQL 中定义数据仓库和数据集市。
任务相关数据规范的语法
以下是用于指定任务相关数据的 DMQL 语法:
use database database_name or use data warehouse data_warehouse_name in relevance to att_or_dim_list from relation(s)/cube(s) [where condition] order by order_list group by grouping_list
指定知识类型的语法
在这里,我们将讨论描述、区分、关联、分类和预测的语法。
描述
描述的语法为:
mine characteristics [as pattern_name] analyze {measure(s) }
analyze 子句指定聚合度量,例如 count、sum 或 count%。
例如:
Description describing customer purchasing habits. mine characteristics as customerPurchasing analyze count%
区分
区分的语法为:
mine comparison [as {pattern_name]} For {target_class } where {t arget_condition } {versus {contrast_class_i } where {contrast_condition_i}} analyze {measure(s) }
例如,用户可以将大额消费者定义为平均购买价格为 100 美元或以上的客户;将预算消费者定义为平均购买价格低于 100 美元的客户。可以根据 DMQL 指定对来自每个类别的客户的判别描述的挖掘,如下所示:
mine comparison as purchaseGroups for bigSpenders where avg(I.price) ≥$100 versus budgetSpenders where avg(I.price)< $100 analyze count
关联
关联的语法为:
mine associations [ as {pattern_name} ] {matching {metapattern} }
例如:
mine associations as buyingHabits matching P(X:customer,W) ^ Q(X,Y) ≥ buys(X,Z)
其中 X 是客户关系的键;P 和 Q 是谓词变量;W、Y 和 Z 是对象变量。
分类
分类的语法为:
mine classification [as pattern_name] analyze classifying_attribute_or_dimension
例如,要挖掘模式,对客户信用评级进行分类,其中类由属性 credit_rating 确定,并且挖掘分类被确定为 classifyCustomerCreditRating。
analyze credit_rating
预测
预测的语法为:
mine prediction [as pattern_name] analyze prediction_attribute_or_dimension {set {attribute_or_dimension_i= value_i}}
概念层次结构规范的语法
要指定概念层次结构,请使用以下语法:
use hierarchy <hierarchy> for <attribute_or_dimension>
我们使用不同的语法来定义不同类型的层次结构,例如:
-schema hierarchies define hierarchy time_hierarchy on date as [date,month quarter,year] - set-grouping hierarchies define hierarchy age_hierarchy for age on customer as level1: {young, middle_aged, senior} < level0: all level2: {20, ..., 39} < level1: young level3: {40, ..., 59} < level1: middle_aged level4: {60, ..., 89} < level1: senior -operation-derived hierarchies define hierarchy age_hierarchy for age on customer as {age_category(1), ..., age_category(5)} := cluster(default, age, 5) < all(age) -rule-based hierarchies define hierarchy profit_margin_hierarchy on item as level_1: low_profit_margin < level_0: all if (price - cost)< $50 level_1: medium-profit_margin < level_0: all if ((price - cost) > $50) and ((price - cost) ≤ $250)) level_1: high_profit_margin < level_0: all
兴趣度量规范的语法
用户可以使用以下语句指定兴趣度量和阈值:
with <interest_measure_name> threshold = threshold_value
例如:
with support threshold = 0.05 with confidence threshold = 0.7
模式表示和可视化规范的语法
我们有一个语法,允许用户以一种或多种形式指定发现模式的显示。
display as <result_form>
例如:
display as table
DMQL 的完整规范
作为一家公司的市场经理,您希望描述可以购买价格不低于 100 美元的商品的客户的购买习惯;关于客户的年龄、购买的商品类型以及购买商品的地点。您想知道具有该特征的客户的百分比。特别是,您只对在加拿大购买并使用美国运通信用卡支付的商品感兴趣。您希望以表格形式查看结果描述。
use database AllElectronics_db use hierarchy location_hierarchy for B.address mine characteristics as customerPurchasing analyze count% in relevance to C.age,I.type,I.place_made from customer C, item I, purchase P, items_sold S, branch B where I.item_ID = S.item_ID and P.cust_ID = C.cust_ID and P.method_paid = "AmEx" and B.address = "Canada" and I.price ≥ 100 with noise threshold = 5% display as table
数据挖掘语言标准化
标准化数据挖掘语言将服务于以下目的:
有助于系统地开发数据挖掘解决方案。
提高多个数据挖掘系统和功能之间的互操作性。
促进教育和快速学习。
促进数据挖掘系统在工业和社会中的应用。