
- 敏捷数据科学教程
- 敏捷数据科学 - 首页
- 敏捷数据科学 - 简介
- 方法论概念
- 敏捷数据科学 - 流程
- 敏捷工具及安装
- 敏捷中的数据处理
- SQL 与 NoSQL
- NoSQL & 数据流编程
- 收集和显示记录
- 数据可视化
- 数据丰富化
- 使用报表
- 预测的作用
- 使用 PySpark 提取特征
- 构建回归模型
- 部署预测系统
- 敏捷数据科学 - SparkML
- 修复预测问题
- 提高预测性能
- 用敏捷和数据科学创造更好的场景
- 敏捷的实施
- 敏捷数据科学有用资源
- 敏捷数据科学 - 快速指南
- 敏捷数据科学 - 资源
- 敏捷数据科学 - 讨论
敏捷数据科学 - 敏捷数据处理
本章我们将重点介绍结构化、半结构化和非结构化数据之间的区别。
结构化数据
结构化数据指的是以 SQL 格式存储在具有行和列的表中的数据。它包含一个关系键,映射到预先设计的字段。结构化数据在大规模应用中使用。
结构化数据仅占所有信息数据 5% 到 10%。
半结构化数据
半结构化数据包括不驻留在关系数据库中的数据。它们包含一些组织属性,使分析更容易。它包括将它们存储在关系数据库中的相同过程。半结构化数据库的示例包括 CSV 文件、XML 和 JSON 文档。NoSQL 数据库被认为是半结构化的。
Learn Data Science in-depth with real-world projects through our Data Science certification course. Enroll and become a certified expert to boost your career.
非结构化数据
非结构化数据占数据量的 80%。它通常包括文本和多媒体内容。非结构化数据的最佳示例包括音频文件、演示文稿和网页。机器生成的非结构化数据的示例包括卫星图像、科学数据、照片和视频、雷达和声纳数据。

以上金字塔结构特别关注数据量及其分布比例。
准结构化数据介于非结构化数据和半结构化数据之间。在本教程中,我们将重点关注半结构化数据,这对敏捷方法论和数据科学研究很有益处。
半结构化数据没有正式的数据模型,但具有明显的、自描述的模式和结构,这是通过其分析开发出来的。
广告