楼主: 安然2016
2253 1

[CDA数据分析师学习之路] 曹正凤:大数据思想、技术以及人才培养 [推广有奖]

  • 0关注
  • 13粉丝

讲师

7%

还不是VIP/贵宾

-

威望
0
论坛币
50136 个
通用积分
1.0002
学术水平
4 点
热心指数
12 点
信用等级
5 点
经验
5550 点
帖子
252
精华
0
在线时间
111 小时
注册时间
2016-2-16
最后登录
2017-5-25

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

曹正凤:

尊敬的各位领导、各位专家、学者,各位数据分析师们,大家下午好!

今天我给大家分享的题目叫大数据思想、技术以及人才培养。

首先请允许我自我介绍一下,我叫曹正凤,北京大数据协会理事,现在在经管之家,原人大经济论坛任总工程师。

年初我写了一本书:《从零进阶!数据分析的统计学基础》,这本书发行半年销量就过万,不是这个书说我写得有多好,我想给大家分享的一个信息就是我们已经进入了数据分析时代。如果在前几年我写这本书的话,可能市场不会有这么大的反映,但是今年恰逢大数据风起云涌的时刻,数据分析已经进入我们企业,进入我们整个国家的经济发展并且成为一个重要因素,所以本书的销售量才会如此之好。

从我们国家来看,今年是与大数据这个概念相关的政策密集出台的一年,我们能看出大数据已经作为我们国家的一个战略。3月李克强总理在《政府工作报告》中就提出了互联网+、大数据、云计算等概念。然后,4月我们在贵阳成立了中国大数据交易所。5月在贵阳召开了国际大数据产业博览会,在这个博览会上我们的国务院副总理马凯发言。大家注意看这是一个产业峰会,在中国产业峰会很多,每年也不少,但是国务院副总理出席并讲话的仅此一个。同时,国务总理李克强致贺电。大家就知道一个产业峰会有如此高的规格,就说明我们国家对它的重视。到了8月份,国务院印发了《大数据行动纲要》,以国务院令的形式发出《关于印发促进大数据发展行动纲要的通知》,大数据已上升到国家纲要的高度。

到底大数据的概念是什么?它有一些什么样的技术?在这里我想做一个分享。我们国家现在基本上各个省都已经开始推动大数据了,到底大数据是什么?这个还是需要我们去理解、把握的,我们开始做一些大数据相关的事情。然后我再分享一下大数据人才培养的情况。

首先,我们看一下大数据概念。自2008年9月《自然》杂志社推出了一个专刊,提出大数据这个概念以来,大数据在全球开始大范围地推广。是谁把它做到最极致呢?是谷歌的流感趋势。谷歌做了大数据的流感臆测,在这里我们主要看一些思想的变化。美国疾病控制中心以前进行流感的臆测是通过下面各个卫生部门、卫生所上报发烧人群的情况,通过量体温的形式逐级上报,两星期以后才知道这个地方要爆发流感,大家知道两星期以后基本上黄瓜菜都凉了。谷歌用大数据的形式实现了一天之内把这件事情搞定,他如何做呢?他不再通过良体温,搜索词频,当然需要量达到那个量,转换了一个形式,通过搜索词频的形式我在一天之内就知道哪个地方会爆发流感,通过这个知道流感会在那个地区爆发。这样它能够提前预防,可以达到什么效果呢?降低感冒人群,节省整个资源。这就是谷歌的流感趋势。

那么大数据到底是什么大数据呢?在《大数据时代》一书中已经对大数据的特征进行了定义,这里我给大家说一下关键点的把握。第一个,我们现在很多学术上转过来的都是从IT或者数据挖掘那里转过来,或者从数据库转过来,他们一般的想法就是数据量达到10万行是不是就是大数据了呢?其实从大数据的本意上来看,大数据不是强调多少万行数据,它强调各种各样数据的集合,这是第三个特征,也就是种类繁多的内容。我们光说一种结构化数据,数据库有多少行,我们还只停留在结构化的小数据时代。在大数据时代强调各种各样的数据,比如我们刚才看到的流感趋势预测,谷歌有注册用户13个亿、14个亿,每天有几亿人在里面搜索词频,所以数据量特别大。大到什么程度呢?我们狭义的定义是PB级,我们的一个硬盘是一个TB,一个PB是1024块硬盘,所以量要达到这个级别。这些数据之间还要有关联性,通俗的理解就是说我们要预测流感了,你不要把韩剧放进来,一个韩剧好几个G,你弄十几个韩剧进来我的量就大了,但是这个不是我们要研究的东西,所以要有关联性。再有就是快速,刚才我们看到流感趋势以前两周做的事情我一天就搞定了,所以要快速获取、快速分析。再有就是种类繁多,不一定非得是结构化数据,我们有很多的非结构化数据,比如刚刚通过全国统计申请研究,进行宏观经济走势的臆测,经济进入新常态了,我们不能通过以前单纯的结构化或者问卷调查的形式来臆测了,我们要加入一些文本数据,并且是海量的文本数据,然后去臆测这个走势,那我们臆测的准确度就可以提高。第四个特征是要带来价值,即创造商业价值。这是大数据最终的目标,大数据为什么引起我们国家高度重视,原因是它确实能带来巨大的商业价值。

互联网每天产生的数据特别大,这也是大数据的发源地,从互联网开始。每天有1.72亿人登录Face book,大家很清楚,它前一段有捐款,它的负责人把自己99%的股份捐献给慈善机构,引起我们国内的大范围讨论。其实,Face book就是一个社交网络平台,注册用户达到12个亿,大家想中国人也就13个亿、14个亿,它一个互联网公司,并且之前没有把中国放进来。今年、明年就会进入中国,进入中国以后,用户量会更大,就是一个数据帝国了。每天有1.72亿人访问Face book进行交流,一些个人的想法、照片都会交流,这些东西会反应一个人的特点。比如我心情高兴了,我会在我的社交圈里发一些很开心事情的照片,我不开心了,我会发一些不开心的照片,而极端分子会发一些极端的照片,都可以分析出来,当然它是基于海量的数据。还有一些其它的社交网络平台,它们每天产生的数据量可以达到1.68张DVD光盘,大家就可以估计出互联网产生的数据量。百度每年的量是50个亿,这还是2014年的量。

这么海量的数据如何存放?然后又如何分析?这里我跟大家分享一点技术性的内容。最早解决这个问题的是谷歌,就是做流感臆测,因为它一开始也有这种数据量,它有海量的数据,它要解决,它是由实际需要驱动它做这件事情,谷歌研发出来了大数据解决方案,他想把这个东西卖给Face book,Face book嫌这个太贵。后来,谷歌的技术人员写了三篇文章,把产品怎么开发出来的写出来了,一个数据的工程师根据技术人员写的三篇文章山寨了一下,写出了一个新的版本,开发出了一个新软件,这个软件叫Hadoop。谈大数据必谈Hadoop,我们国家阿里的大数据就是基于Hadoop做的。Hadoop是一个山寨了谷歌的产品,开发出来以后没有卖钱,而是免费赠送给Face book、雅虎、淘宝等大型公司,因为这是大型公司,所以Hadoop推广也特别快。它到底怎么做大数据的存放呢?你一个硬盘放不下,我用一万个硬盘组成一个大硬盘来存放数据,至于怎么存放的不是我们关心的问题。不用关心它怎么存放,就像大家从来没有关心我的数据在磁盘上哪个地方,操作系统都给我们解决这个问题了。

大数据的量太大了,一块硬盘放不下,并且它可以自由扩展。比如谷歌,今天我用一百个硬盘把这件事情解决了,明天怎么办?后天怎么办?它的量在一直扩大,所以这个时候它要有一个技术,这个技术就可以自由扩展,我今天一百台,明天一千台,后天可以一万台,你数据随便放,有多大都可以解决这个问题,它叫HTFS,就是把一万个硬盘组合在一起做成一个大硬盘,数据存放的事情就解决了。

接下来是存放好了以后怎么分析,这个事情也得解决,不能数据都有了,接下来怎么分析呢?Hadoop里面有一个软件,它解决的问题就是让一万台机器同时计算,你数据存放在一万台机器上,那么好一万台机器同时计算,这种计算是一种变成思想,当我们数据存放在一万台机器上以后,接下来就要让一万台机器同时计算,如果能让一万台机器同时计算的话,速度肯定比单台计算机的速度快多了,我的机器数量可以随意扩展。阿里现在是两千台机群,Linkedin是六千台机群。这样就把数据存放起来了。大数据软件开发出来以后免费赠送,并且解决了两个问题,第一个把一万台机器组合成一个大硬盘,让一万台机器同时进行运算,我的速度就可以比你快很多,你以前两周的事情我一天就给你搞定。

还有一个很关键的因素就是Hadoop部署的时候机器不用多好,普通的计算机就可以了,这也是我们现在国内大部分大数据公司也很欢迎的事情,因为我不用费很大的成本就可以部署一个集群。Hadoop现在已经成为大数据的行业标准,整个全国我们只要做大数据,一般从Hadoop开始。

这里整个大数据的生态环境,要解决大数据这件事情,除了存放、分析,还有一些别的事情,各种各样的,它有各种各样的分析工具,这里我就不一一讲了。大家注意有一个最右边这个,这是进行所有数据挖掘的算法是由它来完成。在座的朋友应该用过SAS,我们可以做一些数据挖掘的算法,但是它有一个问题,它只能在一台机器上运行,我现在数据在一万台机器上,我要在一万台机器上运行,我怎么办,这需要专门的工具,就是这个工具,它程序也已经编好了,你把数据放进去,输几个命令就出结果了。现在Hadoop已经把这件事情全都做好了。我们有大数据项目,你只需要把数据采集好,用他的命令一运行就好了,你都不需要去编程。这是大数据的概念和技术。

下面我再谈一下大数据的人才培养。我们看完这个概念和这些技术以后,我们就大概知道我们的人才培养的着力点。

大数据人才在我们市场已经十分旺盛,2015年新增440万个大数据相关工作岗位,并且有的企业已经设立了首席数据官。

在国外,以美国人口调查的统计数据为例,到2008年人才的缺口是60%,也就是有140到190万的深度挖掘人才,就是我们这里的大数据人才。140到190万的人口缺口,他能培养出来300万,但实际需要是440万,这是美国人口劳工局的。国内大数据发展也十分迅猛,2014年中国大数据调查报告显示,32.5%的公司正在搭建大数据平台,整个大数据市场的缺口是人才缺口至少一百万,统计人才以及技术更是捉襟见肘。

国外的大数据分析师培养现状,全世界范围内已经数百个高校开设大数据分析专业。这是我使用information week搜索的,本特利大学、卡内基大学都开设了大数据硕士项目。本特利大学偏重于计算机方向,首先这些大学都是理科的、计算机方向出来的,它在计算机方面比较有优势,他培养出来的大数据人才偏重于计算机。有的学校是基于统计学,比如新纳西大学,它比较偏重于统计学,侧重于数据分析。国内2013年北航推出了一个大数据技术与应用的软件工程项目。它基于的体系是计算机专业。2014年在袁卫教授的倡导下,由中国人民大学、北京大学、中国科学院大学、中央财经大学与首都经济贸易大学联合成立大数据分析硕士联合培养协同创新体,这个课程立足于统计学,我在首经贸也有给他们上学,课程以统计学为基础,侧重于数据分析的大数据人才培养。

这个是基于统计学大数据人才培养的课程体系。以大数据分析计算为基础的,其实这一块就是我们Hadoop生态环境,大数据分布式计算,Hadoop分布式平台,编程。下面这些是什么呢?是数据挖掘。聚类、分类、抽样是我们最简单的,人才培养一个是统计学,再加上Hadoop生态环境,这是人大的培养模式。在这里面我们看大数据也要学一些java的编程,我的观点不是java程序员,课程设计上java程序是基础,但是我们不用把java所有的东西都学会,因为如果全学会太多了。大批Hadoop的工程师都是从IT过来的,也就是搞java开发的,我在研究生时期做过java开发,所以我们转Hadoop的时候特别好转,因为它的代码我都知道,Hadoop程序可以解开,可以看到程序运行规则,全都知道。大家IT人士有一个问题,他追求的是速度,这只是大数据的一个方面,追求数据,而忽略了刚才思维里的商业价值。我的想法是大数据分析师不是java程序员,但是你要知道java的编程知识和基础语言知识。

大数据分析师区别于普通的数据分析师,小数据时代的数据分析师对数据挖掘、统计、抽样特别了解,但是到了大数据分析的时候,我们的数据量足够大了以后,我们可能用的更多的不再是抽样的形式了。我们用的更多的是这种mahout、spark大数据工具,我们不再用以前的工具,除非你买银河计算机,否则解决不了。我们现在是用很多机器组成一个大硬盘,让很多机器一起运算,这时候就只能用大数据工具,像mahout、spark。在企业里面很多时候可能没有那么大的量,这个时候你可以积累,很多公司已经开始做这件事情。我们先进行初期的积累,当我们的数据量越来越大的时候,自然而然我们就可以把速度提升。这是大数据分析师掌握的知识结构也是不一样的。当然他要具有小数据分析师的数据统计的知识,还要通晓数据挖掘的理论,然后再掌握大数据的软件、工具来进行数据的处理。

大数据分析师具有这四个技能,这是我的做了一个简单的总结。第一个是计算机技能,大数据分析师是要知道数据库的,还有一些非关系性数据库,这种技术不要太精,作为一个团队来说肯定有一个专门做数据库这一块特别懂的人来做这件事情,但是作为我们大数据分析师也得知道,不能一点都不知道。然后,要熟悉inix和Unix的开发环境,因为它的安全性很好,我们也可以很自由地把几万台、几千台、几百台机器组合在一起。其实也很简单,如果我们会用操作系统的话,你能理解操作系统的含义以后,你用Inix和Unix就很好了。还要熟悉java的语言,而spark在内存上运行,运行速度非常快,mahout是不是,两个肯定有区别。现在大数据存储和分析技术行业标准就是Hadoop,当然还有很多技术,都可以把几千台机器组合在一起,但是Hadoop做得最好,当然还有一个很重要的原因,它免费赠送给那么多大型的公司,所以它推广起来特别快。再有要掌握大数据挖掘和统计建模技能,你要知道数据挖掘的基本概念,数据挖掘的算法原理和抽样的基本原理。抽样在什么时候有用呢?在我们选取一些指标的时候,你需要用抽样的东西,因为有的时候你不可能上来就是大数据去跑,你可能需要用小数据慢慢过度。然后掌握大数据分析工具,比如mahout、spark。第四个就是业务应用,刚才大家看人大的课程里也没有教,因为业务必须在企业里慢慢摸索。

这是大数据具有的四个重要的技能。当然核心还是Hadoop技术。

大数据分析师的练成之路,我总结了三点,第一技术是基础,要了解java等基础知识,要了解hadoop的原理及运行机制。然后分析是目标,我们要掌握聚类、分类、抽样的技术,大数据最强的是在文本挖掘那一块,对于趋势预测可以做得特别好,掌握mahout、Spark分析工具。最后实战是硬道理,你要有几个自己会搭建大数据集群,你得有一个集群,哪怕是十台机器、二十台机器,数据不停地往里放,随着时间的增加,你的数据会越来越大,开始可能你的集群跑得没有人家一台机器快,因为数据量小,数据量小的时候大数据的优势出不来,但是数据量到一定程度的时候,优势就可以体现出来了。就跟最早的马车和火车一样,都笑火车跑得慢,马车跑得快,当各个设备都完善了以后,火车就比马车跑得快了,在企业也是这样,数据在慢慢地积累。首先你要会搭建大数据集群,然后在集群下做一些项目,论坛现在也在做一些项目,做论坛的推荐,现在我还是用单机跑,但是我马上可以到集群上运行,那个时候它的状况就会不一样。以前可能我们推荐的时候用一星期的数据,我现在可以用一年的数据,那就不一样了。

最后,我做一个小结。前述的个人想法仅是一个简单的分享,有不对之处还望大家能够一起交流。最后用马云的一句话做结语:数据越用越值钱,这是我们为什么要成立贵阳大数据交易所的原因,数据越用越值钱,不像矿泉水我喝了你就不能喝,数据我用了你再用就不一样,或者结合你的行业用,这就是我们国家为什么推数据公开。未来的世界是数据驱动的时代,不再是石油驱动了,而是数据驱动,马云确实也在做这件事情,他在做他的数据魔方,当然他有海量的数据。谁拥有数据谁就是王者,加一句话,没有数据分析师,王者也要摆地摊。没有我们,他们数据再多也没有用。

  我的演讲到此结束,谢谢大家!

现场精彩问答:

提问:曹老师,我想问一下Pyhon和Hadoop有什么区别?

曹正凤:Hadoop是一个大数据解决方案,一个框架,在我最上面,它实现了数据的存放和数据分析,数据存放几万台机器都可以存放,几万台机器同时计算,它是用java开发出来了,java是一种程序设计语言。Pyhon是什么呢?Pyhon也是一个程序设计语言,你高兴了,你按照谷歌的三篇文章,你学得足够好的话,你也可以开发出一个大数据工具来,一样的。所以它俩一个是程序设计工具,一个是大数据解决的软件,当然这个软件不要钱,免费赠送,所以这个也在中国很受欢迎,大部分的公司,包括我们国内做大数据做得比较好的,比如移动、电商、北京移动上回我们跟他接触,他们就用的Hadoop来做,电商阿里就用Hadoop,当然他的Hadoop自己改了一下,改一改就可以了。因为Hadoop是免费赠送,不要钱的,并且源代码都给你,给你以后你就可以继续开发。阿里不是发了整套的技术,双十一他解决了全球都没有解决的问题,他这个东西解决是基于Hadoop过来的,他把Hadoop的源代码都解开,自己再修改,根据业务需要进行修改,源程序都给你了。Hadoop是一个大数据的解决工具,它用java程序开发出来了,Pyhon是一个程序设计语言,如果你足够好的话,你也可以开发出一个大数据工具,一样的。

  

本文来自2015年12月中关村大数据日暨CDA数据分析人才培养分论坛



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:人才培养 大数据 information Informatio formation 国务院 云计算 中国产业 人才培养 工作报告

沙发
安然2016 发表于 2016-2-26 20:00:38 |只看作者 |坛友微信交流群
提问:老师向您请教一下,如果是基于TD的数据仓储,我们应该怎么结合Hadoop进行大数据分析?因为平时在工作中其实基于TD仓储数据之后,我们在服务器上基本上可以满足统计的需要,如果随着更多的非结构化数据需要分析,怎么样更好地在TD数据仓储结合大数据应用?
  曹正凤:我们一起交流,在Hadoop的大数据解决方案里有专门针对于你说的这种情况,我用鼠标指一下,就是这个。就是针对这种结构化数据,因为结构化数据是单独在一台机器上运行的,当产业可以分布式计算。一种解决方案就是我们把我们的结构化数据直接导出到我们的HTFS上,这是一个最后的解决方案,刚开始可能两者同时运行,你可能两边都走,最好的一个解决方案就是Hadoop提供的,它有专门的工具,他就把你这种结构化数据导到HTFS平台上,然后在HTFS平台上用他的工具进行分析,它是这么解决这件事情的。这个我还没有去具体做过,这是官方提供的一个解决思路。谢谢。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-27 23:58