数据科学 - 入门
数据科学是从数据中提取和分析有用信息以解决难以通过分析方法解决的问题的过程。例如,当您访问电子商务网站并在购买前查看一些类别和产品时,您正在创建分析人员可以用来了解您如何购物的数据。
它涉及不同的学科,例如数学和统计建模,从数据源提取数据和应用数据可视化技术。它还涉及处理大数据技术以收集结构化和非结构化数据。
它可以帮助您发现隐藏在原始数据中的模式。“数据科学”一词的出现是因为数学统计、数据分析和“大数据”随着时间的推移而发生了变化。
数据科学是一个跨学科领域,使您可以从组织化和非组织化数据中学习。利用数据科学,您可以将业务问题转化为研究项目,然后将其应用于现实世界的解决方案。
数据科学的历史
John Tukey在1962年使用“数据分析”一词来定义一个类似于当前现代数据科学的领域。在1985年北京中国科学院的讲座上,C. F. Jeff Wu首次将“数据科学”作为统计学的替代词。随后,1992年在蒙彼利埃第二大学举行的一次会议上,与会者(统计学家)认识到一个新的领域诞生了,该领域以来自许多来源和形式的数据为中心,将统计学和数据分析的已知思想和原理与计算机相结合。
Peter Naur在1974年建议将“数据科学”作为计算机科学的替代名称。国际分类学会联合会是第一个在1996年将数据科学作为特殊主题的会议。然而,这个概念仍在变化。继1985年在北京中国科学院的讲座之后,C. F. Jeff Wu在1997年再次倡导将统计学改名为数据科学。他认为,新的名称将有助于消除统计学的不准确的刻板印象和观念,例如与会计相关或仅限于数据描述。
在20世纪90年代,“知识发现”和“数据挖掘”是用于识别越来越大的数据集中模式的流行术语。
2012年,工程师Thomas H. Davenport和DJ Patil宣称“数据科学家:21世纪最热门的工作”,这一说法被《纽约时报》和《波士顿环球报》等主要大都市出版物采纳。十年后,他们再次强调“该职位比以往任何时候都更紧缺”。
William S. Cleveland经常与当前将数据科学视为一个独立领域的理解联系在一起。在他2001年的一项研究中,他主张将统计学发展到技术领域;需要一个新名称,因为这将从根本上改变该学科。在接下来的几年里,“数据科学”越来越流行。2002年,科学与技术数据委员会出版了《数据科学杂志》。哥伦比亚大学于2003年创办了《数据科学杂志》。美国统计协会的统计学习和数据挖掘分会于2014年将其名称改为统计学习和数据科学分会,反映了数据科学日益普及的现状。
2008年,DJ Patil和Jeff Hammerbacher获得了“数据科学家”的专业称号。虽然它被国家科学委员会在其2005年的研究“长寿命数字数据集合:支持21世纪的研究和教学”中使用,但它指的是在管理数字数据集合中的任何重要角色。
关于数据科学的含义尚未达成一致,一些人认为它只是一个流行词。大数据是营销中一个类似的概念。数据科学家负责将海量数据转化为有用的信息,并开发有助于企业和组织确定最佳运营的软件和算法。
为什么选择数据科学?
根据IDC的数据,到2025年,全球数据将达到175泽字节。数据科学帮助企业了解来自不同来源的大量数据,提取有用的见解,并做出更好的数据驱动决策。数据科学广泛应用于多个工业领域,例如营销、医疗保健、金融、银行和政策制定。
以下是使用数据分析技术的显著优势:
数据是现代社会的石油。借助合适的工具、技术和算法,我们可以利用数据创造独特的竞争优势。
数据科学可以使用先进的机器学习技术来检测欺诈。
它可以帮助您避免严重的财务损失。
能够开发智能机器
您可以使用情感分析来确定客户的品牌忠诚度。这有助于您做出更好、更快的决策。
它使您能够向合适的客户推荐合适的产品,从而发展您的公司。
对数据科学的需求
我们拥有的数据以及我们生成的数据量
根据福布斯的数据,2010年至2020年间,全球生成、复制、记录和消费的数据总量激增了约5000%,从1.2万亿吉字节增加到59万亿吉字节。
公司如何从数据科学中获益?
许多公司正在进行数据转型(将其IT架构转换为支持数据科学的架构),有很多数据训练营等等。事实上,这有一个简单的解释:数据科学提供了宝贵的见解。
一些公司正被那些基于数据做出决策的公司超越。例如,福特公司在2006年亏损126亿美元。在失败之后,他们聘请了一位高级数据科学家来管理数据,并进行了为期三年的改造。这最终导致销售了近2,300,000辆汽车,并在2009年全年盈利。
数据科学家的需求和平均薪资
据《印度今日》报道,由于公司和服务的快速数字化,印度是世界第二大数据科学中心。分析师预计,到2026年,该国将拥有超过1100万个就业机会。事实上,自2019年以来,数据科学领域的招聘增长了46%。
美国银行是十年前首批向客户提供移动银行服务的金融机构之一。最近,美国银行推出了其首个虚拟财务助理Erica。它被认为是世界上最好的金融发明。
Erica目前为全球超过4500万客户提供客户顾问服务。Erica使用语音识别来接收客户反馈,这代表了数据科学的技术发展。
数据科学和机器学习曲线陡峭。尽管印度每年涌入大量数据科学家,但拥有必要技能和专业知识的人相对较少。因此,拥有专业数据技能的人才非常紧缺。
数据科学的影响
数据科学对现代文明的许多方面都产生了重大影响。数据科学对组织的重要性不断提高。根据一项研究,到2023年,全球数据科学市场规模将达到1150亿美元。
医疗保健行业受益于数据科学的兴起。2008年,谷歌员工意识到他们可以实时监测流感病毒株。之前的技术只能提供每周的病例更新。谷歌能够利用数据科学建立首批疾病传播监测系统之一。
体育行业也从数据科学中获益。2019年,一位数据科学家找到了衡量和计算射门尝试如何提高足球队获胜几率的方法。事实上,数据科学被用于轻松计算各种体育运动中的统计数据。
政府机构也每天都使用数据科学。全球各国政府都使用数据库来监测有关社会保障、税收以及其他与其居民相关的数据的信息。政府对新兴技术的利用仍在不断发展。
随着互联网成为人类沟通的主要媒介,电子商务的普及程度也越来越高。利用数据科学,在线企业可以监测整个客户体验,包括营销工作、购买和消费者趋势。广告可能是电子商务企业使用数据科学的最佳案例之一。您是否曾经在线搜索过东西或访问过电子商务产品网站,结果却在社交网站和博客上看到该产品的广告轰炸?
广告像素是在线收集和分析用户信息不可或缺的一部分。公司利用在线消费者行为在互联网上重新定位潜在消费者。这种对客户信息的利用超出了电子商务的范围。像Tinder和Facebook这样的应用程序使用算法来帮助用户找到他们正在寻找的东西。互联网是一个不断增长的数据宝库,对这些数据的收集和分析也将持续增长。