数据挖掘:数据属性和质量
数据挖掘
从海量数据集中提取可用于分析和为组织带来益处的数据的过程。此过程有助于识别模式并管理数据之间的关系,以预测业务问题。
数据属性
属性可以定义为对象的特征或属性。对象由属性集描述,并被称为实体的记录。实体由数据的一部分(即属性)描述。
例如:在学生数据库中。(姓名、ID、学号、分数)是提供的数据库中的属性。
属性类型
名义属性
它仅提供足以区分对象的属性。例如,姓名、学号、地址都是数据集中使用的不同对象。
有序属性
它是一个属性,其可能的值提供足够的信息来对对象进行有意义的排序。例如,薪资范围、教育水平、排名等。
二元属性
二元属性为 0 和 1。0 表示缺少任何特征,1 表示添加特定特征。
数值属性
它本质上是定量的,即数量可以测量并以整数或实数值的形式表示。
它分为两种类型:
区间标度属性:
使用此属性测量大小相等的单位的尺度。它使我们能够进行比较,例如摄氏或华氏温度。
比率标度属性:
对于比率,差异和比率都具有意义。例如,年龄、体重、薪资等。
数据质量
数据质量是指实施技术以使数据适合提供组织所需特定信息的实施。满足需求的数据被认为是高质量数据,并且对于组织中的决策制定非常准确。确保数据质量以获得更好护理的六个主要因素:
准确性
数据必须反映现实世界场景。由于许多原因(例如人为错误或计算机错误)可能存在不准确的日期。
完整性
完整性意味着可用的数据必须有效地交付。不完整的数据可能会根据感兴趣的属性而出现。
一致性
它指的是跨网络使用的数据的规律性。在不同位置存储的类似数据之间不应有任何冲突。不正确的数据也可能导致不一致。
及时性
数据在需要时可用。数据实时更新,以便用户可以访问。它有时会通过未更新或用户未进行更正和调整而影响数据质量。
可信度
它指的是用户对数据的信任程度。存在的数据被认为是准确和正确的,以便进行未来的分析。
可解释性
它指的是用户理解数据的流畅程度。数据用于执行诸如分析之类的任务,但要成功执行这些任务,数据必须具有可解释性,用户可以使用它在提供的数据上顺利地执行任务。
结论
本文包含数据挖掘中数据属性和质量。
数据属性指的是对象的属性,以及它们的类型,即名义、有序、二元和数值属性。名义属性区分对象,有序属性为对象提供有意义的顺序,二元属性分别表示 0 和 1,分别表示缺少特征和添加特定特征,数值属性本质上是定量的。数据质量是指组织中用于决策制定的数据质量。使用的因素包括准确性、完整性、一致性。
及时性、可信度和可解释性。