数据工程 - 数据收集



数据收集涉及从各种来源收集和分析信息,以解决研究问题、回答问题并预测趋势。对于社会科学、商业和医疗保健中的研究、分析和决策,这个过程极具挑战性。数据收集包括识别数据类型、数据来源以及用于收集信息的方法。除了内部应用程序产生的海量数据外,许多外部系统(例如 Facebook、Google、Shopify、Hubspot)还会生成企业依赖的关键客户数据。

数据收集指定了高质量的数据,这对于准确的决策和分析至关重要。对于数据工程师来说,收集数据是第一步,然后是设置数据。

数据收集是一个随着技术发展而不断演变的过程,它提供了比以往更多形式的数据。它通过电话调查、面对面访谈和邮寄评论等方法支持决策。数据收集涉及收集准确的数据,用于各个领域的研究所需的决策和分析。

主要数据收集

主要数据收集涉及直接从来源或通过与受访者直接互动来收集原始数据。此方法提供与研究目标相关的信息。

  • 结构化调查旨在收集来自群体或个人的数据。这些调查可以通过电话、邮件、面对面访谈或在线平台进行。

  • 访谈涉及研究人员和受访者之间的直接互动。可以通过视频会议、面对面或电话进行。

  • 观察涉及在自然环境中记录和观察行为、动作或事件。此方法对于收集有关人际互动和行为的数据非常有效。

次要数据收集

次要数据收集涉及使用来自既定来源的数据。这些来源包括在线数据库、政府和公共数据以及研究研究。

  • 在线数据库提供对各种类型次要数据的访问,包括经济数据、社会调查、社会调查和研究文章。

  • 可用的公共数据包括个人、组织或社区在公共平台、社交媒体和网站上共享的信息。这些数据可以被处理并用于研究目的。

  • 已发表的数据包括学术期刊、书籍、政府报告、报纸和其他提供与研究相关数据的材料。

数据提取技术

以下可以预测未来结果,并被分类为不同的访谈类型:

  • 句子完成:用户使用句子完成来获取更多关于受访者想法的信息。此方法涉及提供不完整的句子并观察受访者如何完成它。

  • 移动调查:移动收集调查利用移动技术。它们使用智能手机等设备通过短信或移动应用程序进行调查。

  • 观察:最简单的方法通常是最有效的方法。研究人员使用直接观察来快速访问数据,而无需过多干预或第三方规范。此方法最适合小型情况。

数据收集的重要性

准确的数据收集最能体现研究的完整性,无论研究主题是否涉及定量数据。使用适当和更新的数据收集工具有助于最大程度地减少错误。

以下是不有效的数据收集:

  • 损害公共政策的决策。

  • 不完整的结论浪费了资源。

  • 对人类或动物参与者造成伤害。

  • 误导其他研究人员走上无益的研究道路。

  • 研究的失败可以被验证和复制。

广告