数据挖掘:数据属性和质量


数据挖掘

从海量数据集中提取可用于分析和为组织带来益处的数据的过程。此过程有助于识别模式并管理数据之间的关系,以预测业务问题。

数据属性

属性可以定义为对象的特征或属性。对象由属性集描述,并被称为实体的记录。实体由数据的一部分(即属性)描述。

例如:在学生数据库中。(姓名、ID、学号、分数)是提供的数据库中的属性。

属性类型

名义属性

它仅提供足以区分对象的属性。例如,姓名、学号、地址都是数据集中使用的不同对象。

有序属性

它是一个属性,其可能的值提供足够的信息来对对象进行有意义的排序。例如,薪资范围、教育水平、排名等。

二元属性

二元属性为 0 和 1。0 表示缺少任何特征,1 表示添加特定特征。

数值属性

它本质上是定量的,即数量可以测量并以整数或实数值的形式表示。

它分为两种类型:

  • 区间标度属性

    使用此属性测量大小相等的单位的尺度。它使我们能够进行比较,例如摄氏或华氏温度。

  • 比率标度属性

    对于比率,差异和比率都具有意义。例如,年龄、体重、薪资等。

数据质量

数据质量是指实施技术以使数据适合提供组织所需特定信息的实施。满足需求的数据被认为是高质量数据,并且对于组织中的决策制定非常准确。确保数据质量以获得更好护理的六个主要因素:

准确性

数据必须反映现实世界场景。由于许多原因(例如人为错误或计算机错误)可能存在不准确的日期。

完整性

完整性意味着可用的数据必须有效地交付。不完整的数据可能会根据感兴趣的属性而出现。

一致性

它指的是跨网络使用的数据的规律性。在不同位置存储的类似数据之间不应有任何冲突。不正确的数据也可能导致不一致。

及时性

数据在需要时可用。数据实时更新,以便用户可以访问。它有时会通过未更新或用户未进行更正和调整而影响数据质量。

可信度

它指的是用户对数据的信任程度。存在的数据被认为是准确和正确的,以便进行未来的分析。

可解释性

它指的是用户理解数据的流畅程度。数据用于执行诸如分析之类的任务,但要成功执行这些任务,数据必须具有可解释性,用户可以使用它在提供的数据上顺利地执行任务。

结论

本文包含数据挖掘中数据属性和质量。

数据属性指的是对象的属性,以及它们的类型,即名义、有序、二元和数值属性。名义属性区分对象,有序属性为对象提供有意义的顺序,二元属性分别表示 0 和 1,分别表示缺少特征和添加特定特征,数值属性本质上是定量的。数据质量是指组织中用于决策制定的数据质量。使用的因素包括准确性、完整性、一致性。

及时性、可信度和可解释性。

更新于:2023年8月22日

4K+ 次查看

开启你的 职业生涯

通过完成课程获得认证

开始学习
广告