数据科学 - 什么是数据?



数据科学中的数据是什么?

数据是数据科学的基础。数据是指对特定字符、数量或符号进行系统记录,计算机对其进行操作,可以存储和传输。它是为了特定目的(例如调查或分析)而收集的数据的汇编。当数据被结构化时,可以将其称为信息。数据源(原始数据、次级数据)也是一个重要的考虑因素。

数据有多种形状和形式,但通常可以认为是某些随机实验的结果——一个无法预先确定结果的实验,但其运作仍然可以进行分析。随机实验产生的数据通常存储在表格或电子表格中。表示变量的统计约定通常称为特征或列,而单个项目(或单位)称为行。

数据类型

数据主要分为两种类型,它们是:

定性数据

定性数据包含无法计数、量化或简单地用数字表示的信息。它是从文本、音频和图片中收集的,并使用数据可视化工具进行分发,包括词云、概念图、图数据库、时间线和信息图表。

定性数据分析的目的是回答有关个人活动和动机的问题。收集和分析此类数据可能非常耗时。处理定性数据的研究人员或分析师被称为定性研究人员或分析师。

定性数据可以为任何行业、用户群体或产品提供重要的统计数据。

定性数据的类型

定性数据主要分为两种类型,它们是:

名义数据

在统计学中,名义数据(也称为名义尺度)用于指定变量,而不赋予数值。它是测量尺度的最基本类型。与顺序数据相反,名义数据无法排序或量化。

例如,人的姓名、头发的颜色、国籍等。假设一个名叫Aby的女孩,她的头发是棕色的,她来自美国。

名义数据可以是定性的,也可以是定量的。但是,与定量标签(例如识别号)没有关联的数值或链接。相反,几个定性数据类别可以用名义形式表示。这些可能包括单词、字母和符号。个人姓名、性别和国籍是一些最常见的名义数据示例。

分析名义数据

可以使用分组方法分析名义数据。变量可以被分成组,并且可以确定每个类别的频率或百分比。数据也可以以图形方式显示,例如使用饼图。

Analyze Nominal Data

尽管名义数据不能使用数学运算符进行处理,但仍然可以使用统计技术对其进行研究。假设检验是一种评估和分析数据的常用方法。

对于名义数据,可以使用卡方检验等非参数检验来检验假设。卡方检验的目的是评估预测频率与给定值的实际频率之间是否存在统计学上的显著差异。

顺序数据

顺序数据是统计学中的一种数据类型,其中值具有自然顺序。关于顺序数据最重要的事情之一是,您无法判断数据值之间的差异是什么。大多数情况下,数据类别的宽度与基础属性的增量不匹配。

在某些情况下,可以通过对数据值进行分组来发现区间数据或比率数据的特征。例如,收入范围是顺序数据,而实际收入是比率数据。

顺序数据不能像区间数据或比率数据那样使用数学运算符进行更改。因此,中位数是确定顺序数据集中间位置的唯一方法。

此数据类型广泛存在于金融和经济领域。考虑一项经济研究,该研究考察了不同国家的 GDP 水平。如果报告根据各国的 GDP 对其进行排名,则排名是顺序统计数据。

分析顺序数据

使用可视化工具评估顺序数据是最简单的方法。例如,数据可以显示在表格中,其中每一行代表一个单独的类别。此外,它们可以使用不同的图表以图形方式表示。条形图是用于显示此类数据的最流行的图形样式。

Analyzing Ordinal Data

顺序数据也可以使用复杂的统计分析方法(如假设检验)进行研究。请注意,t 检验和 ANOVA 等参数程序不能用于这些数据集。只有非参数检验,例如 Mann-Whitney U 检验或 Wilcoxon 配对检验,才能用于评估关于数据的零假设。

定性数据收集方法

以下是一些收集定性数据的方法和收集方法:

  • 数据记录 - 利用已经存在的数据作为数据源是进行定性研究的最佳方法之一。类似于访问图书馆,您可以查看书籍和其他参考材料以获取可用于研究的数据。

  • 访谈 - 个人访谈是获取定性研究演绎数据最常用的方法之一。访谈可以是随意的,没有固定的计划。它通常类似于对话。访谈者或研究人员直接从被访谈者那里获取信息。

  • 焦点小组 - 焦点小组由 6 到 10 人组成,他们相互交谈。主持人负责监控对话并根据焦点问题引导对话。

  • 案例研究 - 案例研究是对个人或群体的深入分析,重点关注发展特征与环境之间的关系。

  • 观察 - 这是一种研究人员观察对象并记录文字记录以发现内在反应和反应(无需提示)的技术。

定量数据

定量数据由数值组成,具有数值特征,并且可以对这种类型的数据执行数学运算,例如加法。由于其定量特征,定量数据在数学上是可验证和可评估的。

其数学推导的简单性使得能够控制不同参数的测量。通常,它是通过对人口子集进行的调查、民意调查或问卷调查来收集的,用于统计分析。研究人员能够将收集到的发现应用于整个人群。

定量数据的类型

定量数据主要分为两种类型,它们是:

离散数据

与范围相反,这些数据只能取某些值。例如,关于人口的血型或性别的信息被认为是离散数据。

离散定量数据的示例可能是您网站的访问者数量;您可能一天有 150 次访问,但不会有 150.6 次访问。通常,使用计数图、条形图和饼图来表示离散数据。

离散数据的特征

由于离散数据易于总结和计算,因此它通常用于基本统计分析。让我们检查离散数据的一些其他重要特征:

  • 离散数据由离散变量组成,这些变量是有限的、可测量的、可计数的,并且不能为负数(5、10、15 等)。

  • 简单的统计方法,如条形图、折线图和饼图,使显示和解释离散数据变得容易。

  • 数据也可以是分类的,这意味着它具有固定数量的数据值,例如人的性别。

  • 既受时间约束又受空间约束的数据以随机方式分布。离散分布使查看离散值变得更容易。

连续数据

这些数据可以在某个范围内取值,包括最大值和最小值。最大值和最小值之间的差称为数据范围。例如,您学校孩子的身高和体重。这被认为是连续数据。连续数据的表格表示称为频率分布。这些可以用直方图以视觉方式描绘。

连续数据的特征

另一方面,连续数据可以是数字,也可以是随时间和日期分布。此数据类型使用高级统计分析方法,因为存在无限数量的可能值。关于连续数据的重要特征是:

  • 连续数据会随时间变化,并且在不同的时间点,它可以具有不同的值。

  • 可能或不可能是整数的随机变量构成连续数据。

  • 折线图、偏度等数据分析工具用于测量连续数据。

  • 一种经常使用的连续数据分析类型是回归分析。

定量数据收集方法

以下是一些收集定量数据的方法和收集方法:

  • 调查问卷 − 这些类型的研究非常适合从用户和客户那里获取详细的反馈,尤其是在了解人们对产品、服务或体验的感受方面。

  • 开源数据集 − 在线可以找到许多公共数据集,并且可以免费进行分析。研究人员有时会查看已经收集的数据,并尝试以适合他们自己研究项目的方式弄清楚这些数据意味着什么。

  • 实验 − 一种常见的方法是实验,通常包括一个对照组和一个实验组。实验的设置是为了能够进行控制,并根据需要更改条件。

  • 抽样 − 当数据点很多时,可能无法调查每个人或每个数据点。在这种情况下,定量研究是在抽样的帮助下进行的。抽样是从整个数据中选择一个代表性样本的过程。抽样分为两种类型:随机抽样(也称为概率抽样)和非随机抽样。

数据收集类型

根据来源,数据收集可以分为两种类型 -

  • 原始数据 − 这些数据是研究人员为了特定目的首次获取的数据。原始数据在某种意义上是“纯净的”,因为它们尚未经过任何统计处理,并且是真实的。原始数据的示例包括印度人口普查。

  • 次级数据 − 这些数据最初是由某个实体收集的。这意味着此类数据已由研究人员或调查人员收集,并且以已发布或未发布的形式可用。此数据是不纯净的,因为可能已经对其进行了统计计算。例如,在印度政府或财政部网站或其他档案、书籍、期刊等上可以获取的信息。

大数据

大数据被定义为数据量更大,需要克服处理它们的物流挑战。大数据指的是更大、更复杂的数据集,特别是来自新数据源的数据集。某些数据集非常庞大,以至于传统的数据处理软件无法处理它们。但是,这些海量数据可以用来解决以前无法解决的业务挑战。

数据科学是对如何分析海量数据并从中获取信息的研究。您可以将大数据和数据科学比作原油和炼油厂。数据科学和大数据源于统计学和传统的管理数据方法,但现在它们被视为独立的领域。

人们经常使用三个V来描述大数据的特征 -

  • 量(Volume) − 有多少信息?

  • 种类(Variety) − 不同类型的数据有多大差异?

  • 速度(Velocity) − 新信息片段产生的速度有多快?

如何在数据科学中使用数据?

每个数据都必须进行预处理。这是一系列必不可少的流程,将原始数据转换为更易于理解且更有价值的格式,以便进行进一步处理。常见流程包括 -

  • 收集和存储数据集

  • 数据清洗

    • 处理缺失数据

    • 噪声数据

  • 数据集成

  • 数据转换

    • 泛化

    • 归一化

    • 属性选择

    • 聚合

我们将在后续章节中详细讨论这些流程。

广告