- Hadoop 教程
- Hadoop - 首页
- Hadoop - 大数据概述
- Hadoop - 大数据解决方案
- Hadoop - 简介
- Hadoop - 环境搭建
- Hadoop - HDFS 概述
- Hadoop - HDFS 操作
- Hadoop - 命令参考
- Hadoop - MapReduce
- Hadoop - Streaming
- Hadoop - 多节点集群
- Hadoop 有用资源
- Hadoop - 问题与解答
- Hadoop - 快速指南
- Hadoop - 有用资源
Hadoop - 大数据概述
“90% 的世界数据是在过去几年中产生的。”
由于新技术、设备和社交网络等通信手段的出现,人类产生的数据量每年都在迅速增长。从时间开始到 2003 年,我们产生的数据量为 50 亿 GB。如果你将这些数据以磁盘的形式堆叠起来,它可能会填满整个足球场。2011 年每两天产生相同的数据量,2013 年每十分钟产生相同的数据量。这一速度仍在大幅增长。尽管所有这些产生的信息都很有意义,并在处理后可以有用,但它却被忽视了。
什么是大数据?
大数据是指无法使用传统计算技术处理的大型数据集的集合。它不是单一的技术或工具,而是已经成为一个完整的学科,涉及各种工具、技术和框架。
大数据包含哪些内容?
大数据涉及不同设备和应用程序产生的数据。下面列出了一些属于大数据范畴的领域。
黑匣子数据 - 它是直升机、飞机和喷气机等部件的一部分。它捕获飞行机组人员的声音、麦克风和耳机录音以及飞机的性能信息。
社交媒体数据 - Facebook 和 Twitter 等社交媒体保存着全球数百万用户发布的信息和观点。
证券交易数据 - 证券交易数据保存着客户对不同公司股票的“买入”和“卖出”决策信息。
电网数据 - 电网数据保存着特定节点相对于基站的能耗信息。
交通数据 - 交通数据包括车辆的型号、容量、距离和可用性。
搜索引擎数据 - 搜索引擎从不同的数据库中检索大量数据。
因此,大数据包括海量数据、高速数据和可扩展的数据种类。其中的数据将分为三种类型。
结构化数据 - 关系数据。
半结构化数据 - XML 数据。
非结构化数据 - Word、PDF、文本、媒体日志。
大数据的益处
利用 Facebook 等社交网络保存的信息,营销机构正在了解其活动、促销和其他广告媒介的响应情况。
利用社交媒体中关于消费者偏好和产品认知的信息,产品公司和零售组织正在规划其生产。
利用患者既往病史的相关数据,医院正在提供更好、更快的服务。
大数据技术
大数据技术对于提供更准确的分析至关重要,这可能导致更具体的决策,从而为企业带来更高的运营效率、降低成本和降低风险。
为了利用大数据的力量,您需要一个基础设施,该基础设施能够实时管理和处理海量结构化和非结构化数据,并能够保护数据隐私和安全。
市场上有来自亚马逊、IBM、微软等不同供应商的各种技术来处理大数据。在研究处理大数据的技术时,我们考察以下两类技术 -
操作型大数据
这包括像 MongoDB 这样的系统,这些系统为实时交互式工作负载提供操作功能,其中数据主要被捕获和存储。
NoSQL 大数据系统旨在利用过去十年中出现的新的云计算架构,以便能够以低廉且高效的方式运行海量计算。这使得操作型大数据工作负载的管理、成本和实施速度都大大提高。
一些 NoSQL 系统可以基于实时数据提供对模式和趋势的洞察,只需最少的编码,无需数据科学家和额外的基础设施。
分析型大数据
这些包括像大规模并行处理 (MPP) 数据库系统和 MapReduce 这样的系统,这些系统提供用于回顾性和复杂分析的分析功能,这些分析可能涉及大部分或全部数据。
MapReduce 提供了一种新的数据分析方法,它与 SQL 提供的功能相辅相成,并且基于 MapReduce 的系统可以从单个服务器扩展到数千台高端和低端机器。
这两类技术是互补的,并且经常一起部署。
操作型与分析型系统
操作型 | 分析型 | |
---|---|---|
延迟 | 1 毫秒 - 100 毫秒 | 1 分钟 - 100 分钟 |
并发性 | 1000 - 100,000 | 1 - 10 |
访问模式 | 写入和读取 | 读取 |
查询 | 选择性 | 非选择性 |
数据范围 | 操作型 | 回顾性 |
最终用户 | 客户 | 数据科学家 |
技术 | NoSQL | MapReduce、MPP 数据库 |
大数据挑战
与大数据相关的主要挑战如下 -
- 捕获数据
- 整理
- 存储
- 搜索
- 共享
- 传输
- 分析
- 呈现
为了应对上述挑战,组织通常会借助企业服务器。