数据挖掘：数据属性和质量

DBMS 数据库数据挖掘

数据挖掘

从海量数据集中提取可用于分析和为组织带来益处的数据的过程。此过程有助于识别模式并管理数据之间的关系，以预测业务问题。

数据属性

属性可以定义为对象的特征或属性。对象由属性集描述，并被称为实体的记录。实体由数据的一部分（即属性）描述。

例如：在学生数据库中。（姓名、ID、学号、分数）是提供的数据库中的属性。

属性类型

名义属性

它仅提供足以区分对象的属性。例如，姓名、学号、地址都是数据集中使用的不同对象。

有序属性

它是一个属性，其可能的值提供足够的信息来对对象进行有意义的排序。例如，薪资范围、教育水平、排名等。

二元属性

二元属性为 0 和 1。0 表示缺少任何特征，1 表示添加特定特征。

数值属性

它本质上是定量的，即数量可以测量并以整数或实数值的形式表示。

它分为两种类型：

区间标度属性：

使用此属性测量大小相等的单位的尺度。它使我们能够进行比较，例如摄氏或华氏温度。
比率标度属性：

对于比率，差异和比率都具有意义。例如，年龄、体重、薪资等。

数据质量

数据质量是指实施技术以使数据适合提供组织所需特定信息的实施。满足需求的数据被认为是高质量数据，并且对于组织中的决策制定非常准确。确保数据质量以获得更好护理的六个主要因素：

准确性

数据必须反映现实世界场景。由于许多原因（例如人为错误或计算机错误）可能存在不准确的日期。

完整性

完整性意味着可用的数据必须有效地交付。不完整的数据可能会根据感兴趣的属性而出现。

一致性

它指的是跨网络使用的数据的规律性。在不同位置存储的类似数据之间不应有任何冲突。不正确的数据也可能导致不一致。

及时性

数据在需要时可用。数据实时更新，以便用户可以访问。它有时会通过未更新或用户未进行更正和调整而影响数据质量。

可信度

它指的是用户对数据的信任程度。存在的数据被认为是准确和正确的，以便进行未来的分析。

可解释性

它指的是用户理解数据的流畅程度。数据用于执行诸如分析之类的任务，但要成功执行这些任务，数据必须具有可解释性，用户可以使用它在提供的数据上顺利地执行任务。

结论

本文包含数据挖掘中数据属性和质量。

数据属性指的是对象的属性，以及它们的类型，即名义、有序、二元和数值属性。名义属性区分对象，有序属性为对象提供有意义的顺序，二元属性分别表示 0 和 1，分别表示缺少特征和添加特定特征，数值属性本质上是定量的。数据质量是指组织中用于决策制定的数据质量。使用的因素包括准确性、完整性、一致性。

及时性、可信度和可解释性。

Amrendra Patel

更新于：2023年8月22日

4K+ 次查看

开启你的职业生涯

通过完成课程获得认证

广告

© . All rights reserved.