什么是属性?
属性是一个数据字段,定义了数据对象的特征。在文献中,属性、维度、特征和变量这些名词是对应使用的。维度通常用于数据仓库。机器学习文献倾向于使用术语“特征”,而统计学家则更喜欢术语“变量”。
数据挖掘和数据库专家通常使用术语“属性”。例如,定义用户对象的属性可以包括客户 ID、姓名和地址。给定属性的观察值称为观察结果。
一组可以定义给定对象的属性被称为属性向量(或特征向量)。包含一个属性(或变量)的数据分布称为单变量。双变量分布包含两个属性,依此类推。
属性的类型由其可能值的集合决定,包括名义、二元、有序或统计属性。
名义属性 - 名义属性定义与名称相关联。名义属性的值是事物的符号或名称。每个值定义某种类型的类别、代码或状态等。名义属性被定义为分类属性。这些值没有任何显著的顺序。在计算机科学中,这些值也称为枚举。
二元属性 - 二元属性是一个只有两个元素或状态的名义属性,例如 0 或 1,其中 0 通常表示属性不存在,而 1 表示属性存在。如果两个状态等同于真和假,则二元属性被定义为布尔属性。
如果二元属性的两个状态同等重要并产生相同的权重,则该二元属性是对称的。对哪个结果必须编码为 0 或 1 没有偏好。例如,性别属性具有男性和女性状态。
如果二元属性的状态结果的重要性不同,则该二元属性是非对称的,包括艾滋病毒医学测试的阳性和阴性结果。按照惯例,它可以通过 1(例如,艾滋病毒阳性)对最重要的结果(通常是最接近的结果)进行编码,并通过 0(例如,艾滋病毒阴性)对不同的结果进行编码。
有序属性 - 有序属性是一个属性,其可能的值之间具有显著的顺序或等级,但连续值之间的幅度未知。
数值属性 - 数值属性是定量的。它是一个可测量的量,以整数或实数值定义。它可以是区间标度或比率标度。
广告