你擅长数学,会用SPSS软件,而且还对某个行业了如指掌?如果你拥有这样的技能集,那你就有可能当上数据科学家。而如果你当上了数据科学家,那你的日子就可以过得风风光光了——LinkedIn的最新投票结果显示,“统计分析和数据挖掘” 是2014年最大的求职法宝。
美国招聘网站Glassdoor的报告称,数据科学家的平均年薪为118709美元(约合人民币737550元),而程序员的平均年薪为64537美元(约合人民币400974元)。麦肯锡公司的一份研究预测称,到2018年,在“具有深入分析能力的人才”方面,美国可能面临着14万到19万的缺口,而“可以利用大数据分析来做出有效决策的经理和分析师” 缺口则会达到150万。
该领域目前异常火爆,纽约大学数据科学中心课程的负责人罗伊-洛伦斯(Roy Lowrance)表示,现在可能已经到了巅峰期。“也许存在着泡沫,” 他说。 “无论什么事情,一旦变得这样火爆,之后就肯定就会冷下来。”不过,纽约大学希望在未来几年里扩大数据科学课程的招生规模,把学生人数从40名增加到60名。本学年还有五个月才会结束,但50%到75%的学生已经找到了比较理想的工作。
为什么该领域会变得如此火爆?琳达-博奇(Linda Burtch)是芝加哥的猎头公司博奇工程的董事总经理,她表示,尽管像谷歌(微博)、亚马逊、Netflix和Uber这样的高科技公司都有自己的数据科学团队,但那些非高科技公司,比如Neiman Marcus、沃尔玛、Clorox和Gap,它们现在也需要使用这方面的人才,“很多公司都在物色数据科学家,”她说。
这些公司希望,数据科学专业人才可以挖掘新的信息,来帮助公司开源节流。IBM负责大数据业务的副总裁Anjul Bhambhri表示,航空航天制造商Pratt & Whitney现在可以预测出飞机发动机何时需要进行维护,准确率达到97%,这可以帮助它更加有效地开展业务。
虽然IBM在本月刚刚推出了基于云计算的Watson Analytics免费增值工具,但是,为了分析非结构化数据,数据科学家常常不得不亲自动手编写专门的软件程序,这正是数据科学家必须掌握编程技巧的一个原因。
数据科学家要做哪些事?
游戏公司Playstudios的数据科学家乔恩-格林伯格(Jon Greenberg)说:“在日常工作中,我需要管理一系列控制面板,它们提供的信息可以让公司知道,我们的生意到底做得怎么样? 用户在做什么事情?”格林伯格现在是一名经理了,所以他编程的时候没有以往那么多,但是他有时候仍然需要编程。通常来说,他把数据从Apache Hadoop的存储器里调取出来,在分析平台Revolution R上运行它,并对它进行一些可视化处理。 “比如说,我们可以从中得知一部分用户如何与新推出的功能互动,”他解释说。
六年前,格林伯格拿到了统计学的硕士学位。他希望进入政府部门工作,但却惊讶地发现,公司企业非常需要数据科学家。 “那个时候,数据科学领域还没有现在这么火爆,”他说。现在,他每天都能从猎头那里收到一个电话或一封邮件。 “这种情况不只是发生在我身上,”他说。“所有的数据科学家可能都是这样。”
对于格林伯格来说,就业机会很好只是一个加分项,因为他本来就热爱这一行。 “我认为,要做数据科学工作,你必须得有分析头脑才行,而且还得有好奇心,”他说。“你必须得有灵活性和创造性,构思出不同的方法来解决问题。”这项工作的唯一缺点,格林伯格说,就是“清洁”数据(去掉那些没有相关性的结果)需要花费大量时间。“这部分任务并不是那么招人喜欢,你得花很多时间来做它。”他说。
Rajpurohit说,他花了很多精力来清洁数据和做研究。 “我很大一部分时间都花在做研究上,因为我经常会遇到全新的问题,因此,我需要研究特定领域最新文献,或者是找找专家,听听他们在这方面的看法,”他说。
“尽管数据科学这个名字和艺术毫不沾边,但是你需要把艺术和科学很好地结合起来。科学的部分很明显——数学,程序设计等等。但艺术部分是同样重要——创造力,对语境有着深刻的理解。把这两部分结合在一起,你就会变得善于解决问题。”
尽管如此,Rajpurohit也承认,数据科学并不像眼下很多人以为的那样善良迷人。这个领域确实是在变得越来越重要,而且也出现了很多高薪机会,但在数据科学家需要做的日常工作中,有很多其实都很枯燥。
你是当数据科学家的料吗?
每天花大量时间来编程,分析控制面板上的数据,获得相关信息,如果你对这样的工作感兴趣,那么你可能就适合干这一行。但如果你仅仅是想拿高工资,那么你可能就会觉得这样的日子过起来苦不堪言。你要知道:真正适合干这一行的人,常常会在业余时间里编写程序,分析数据,而他们这样做只是为了自娱自乐。
亚当-弗洛葛尔(Adam Flugel)是博奇公司的数据科学招聘猎头,他谈到了最近遇到的一名候选人。此人拥有博士学位,今年秋天将去电艺公司(Electronic Arts)工作。“真正让他脱颖而出的是优势是,他在空闲时间也做这种事情,而且纯粹就是为了好玩,”弗洛葛尔说。“他是多人在线游戏世界《坦克世界大战》的玩家,领导着一个玩家团队。于是他编写了一个从游戏服务器抓取数据的程序,然后进行数据分析,评估自己团队的表现。然后他利用这些信息来弄清应该如何调整自己的战略,应该招收哪些类型的成员,才能提升团队的整体表现。”
所以,如果你爱的并不是数据本身,而是它可以给你带来的高薪,那么你会发现,自己很难与那样的人竞争。但是博奇说,每个人都应该学会热爱数据,即便只是为了自己事业前途着想,也该这样做。 “十年之内,如果你不是数据大咖,你就别想升到‘首席XX官’的位置上”博奇说。
但是像史蒂夫-乔布斯、比尔-盖茨那样的情况又怎么解释呢?他们拥有远见卓识,并没有陷入数据科学的细枝末节之中。“那是30年前的事了,”博奇说。 “我说的是未来10年。”