2017年中国数据分析师行业峰会:跨界互联数聚未来
跨界互联·数聚未来
第四届中国数据分析师行业峰会
主题:主会场——跨界互联数聚未来
地点:中国大饭店
主持人:现场尊敬的各位,女士们、先生们,同步收看直播的网友朋友们,大家上午好!这里是跨界互联,数聚未来峰会的现场。我代表大会主办方对各位的到来表示最热烈的欢迎和最诚挚的感谢!谢谢各位!同时,要感谢永恒科技,诸葛IO等对本次峰会的大力支持,以及感谢有道云笔记提供的全程速记支持。本届峰会除了看到的主会场以外,还有生物医疗、云计算、电商、大数据四个分会场进行。
毋庸置疑,现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流日趋密切,大数据就是这个高科技时代的产物。未来的时代将不再是IT时代,而是DT时代。大数据已经成为企业最重要的核心资产之一,基于大数据的商业变革也将造就千亿级的市场。今天在我们相聚一堂,共聚一堂,下面通过一段特别视频开启今天的大数据之旅。
曹鑫:欢迎来到CDAS。非常高兴跟大家再次聚到CDAS,非常厉害,今年也是打破了我们单日报名人数的最大规模,今年的报名人数单日超过4700人。我有时候自己也在电脑前想,在座各位真的都知道CDAS是什么吗?还是说前两天在公司没事儿做,打开活动行一看,有个活动排名第一,报名人数还挺多,大数据。按有这样的人希望你能体验到最好的CDAS。今年我们做了一个改变,每年我一上台有人吐槽,说看看看,广告有来了,我非常不喜欢被叫做广告,所以今年我们在同一时间开了四场分论坛:生物医疗,云计算,电商,互联网,我刚刚看了已经爆满了。如果在座的各位听不下去了可以到那四个分论坛走一走,没关系的。但是这个舞台有一个嘉宾是来自合一创投的吴海山先生,他是人工智能的专家,所以如果大家对这个感兴趣的话可以在这等一会儿。今天有超过60个嘉宾、11个分论坛,所以我相信今天会给大家带来非常好的体验。说到体验我们今天还有一个好好的优化,每年大家都会说资料怎么获得?我们把60位嘉宾的演讲资料全部都放到邮件里面,大家只要扫描这个二维码,就可以找到自己想要的分论坛资料。今年除了在场的各位,我还要感谢一下七家直播给我们做直播,非常感谢。特别要提的是IT大咖说给我们所有的演讲做了录制,非常感谢他们。除了直播,还有60多家媒体,希望各位能够把我们CDAS有意思的事情传播给更多的数据分析师。
说完了感谢,得介绍介绍我们自己,因为可能还有朋友不知道CDA分析师,我们是在国内一直致力于做数据分析的学习社区,打造一个最棒的学习社区。我们在过去的一年,从北京到上海,到苏州,到长沙,到成都,到广州,到深圳,我们走到数据分析师中间,跟他们去做分享、交流,我们最有特色的一个活动,是CDA持证人分享,他们分享自己的学习经验,分享自己的职业发展经验,前辈在上面讲,后面在下面听,就是这样一个社区,有人进入,有人进步,非常健康。也是因为上海跟深圳特别好的氛围,我们今年在上海跟深振业开了分公司。因为我们觉得社区不仅仅是交流,更重要的是帮年轻的新人们学到知识,找到好工作。我们最受欢迎的产品,其实就是我们的CDA就业班。这个地方有什么好鼓掌的?这个有托儿的嫌疑了。关于CDA就业班我说两个数据,这两个数据我觉得是值得鼓掌的:第一个数据,就业率。大家可以看,我们就业率从第一期到第八期,已经到了97%。平均应该到了95%以上。这是我们就业率。其实我们同事,就是刚刚鼓掌的同事,他私下跟我说那个97%其实没有就业的同学是去读了研究生。第二个数据是平均起薪。大家可以看一下,我们最高的已经到了9900元。所以这个地方我觉得我们真的值得为我们就业班同事鼓鼓掌,你们干的真的非常棒。我知道还有朋友没有鼓掌,我不知道你们心里在想什么,每年我在这里就有人吐槽,我发现我们CDAS观众很喜欢吐槽的,你这是王婆卖瓜,自卖自夸。今年王婆不是一个人,王婆和他的朋友一起卖瓜。有请拉钩网商业化的负责人张华武先生。
张华武:大家好,我是负责拉钩的商业化。拉钩讲的未来争夺的能源是数据。为什么讲这个呢?因为我要铺垫下面一个,就是现在很多的大佬,包括一些大厂开始在大数据方面做了很强的布局,未来争夺是非常非常激烈的。所以在大数据时代,数据分析师在互联网行业占据着非常重要的地位。接下来我来分享一下我们拉钩看到的几个数据。
从地域角度来看,数据分析师的从业人员跟互联网的从业人员的分布,从分布上来看的话正好是一致的,基本上以北上广深杭州这样的一些互联网重镇,一线城市为主。第二个,从整个行业角度来看的话,数据分析师分布在移动互联,电子商务,金融等方面。当我们把移动互联,因为移动互联和电子商务,包括数据、金融都有交叉的地方,所以把移动互联单独列出来。电子商务由于电商化的一些平台对数字运用的非常好,所以这里数据分析师从业人员应用非常多。
接下来看一下作为互联网新兴行业,它的从业人员的年纪,其实相对来说比较偏向与年轻。也有像CDA这样行业不断向行业输送数据分析师这样岗位的人才。做数据分析其实最专业的要求还是会有的,比如说学习计算机出身的,统计学,数学等等一系列专业,如果你从事数据分析的话是非常非常有优势的。这个可能是在座的每一位比较关心的,这个是从拉钩的职位以及企业发布的职位的薪酬统计出来的数据,包括候选人他们对数据分析师这样的岗位对薪酬的期待。所以你们可以看到从2015年3月份到2017年2月份,他的薪资是逐渐的增高的,每个月份都会有增长,所以整体的薪酬和他的经验是正相关。可以看到,这个行业如果说有十年以上的经验的人员的话,他们的薪资已经起薪到36.9P,这个薪资是非常高的。并且每一年我们在拉钩上拉了一下数据,这个行业薪酬最高的Top10数据分析,它在2016年-2017年的涨幅达到了最高,同比涨幅是19.27%。基本上是Top1。所以我们能够明确的看到,就是在今年我们发布了上半年的2017年的人才流动报告,可以看到什么行业最有前景,看到什么职位最高薪,通过数据可以看到:大数据行业最有前景,最高薪的职位是数据开发,后面还有数据分析。我在拉钩输了一下跟数据相关的岗位,发现发这个数据的职位超过15000家,这个需求非常大,并且职位的发布的增长数是不断增加的。大家我们有一个小程序,大家可以在拉钩上看一看这些职位的要求,包括你们所关注的大厂基本都在里面有一些职位,关于数据分析的。
关于拉钩我讲一讲,因为拉钩一直关注于互联网行业的人的成长,包括他们的就业,以及更好的连接企业和人。刚刚我们结束了拉钩的四周年的庆典活动,其实拉钩是一家非常年轻的公司,到这个阶段我们其实对于这个行业的每一波的浪潮,比如说最早的像O2O,包括双创和互联网+,以及共享经济,和接下来的大数据时代,所以我们都是这个行业比较好的一个观察者,我们也会提供很多的我们的见闻和观察给到大家。刚才的内容说的比较简单,大家可以看一看我们拉钩每年针对季度发布我们的互联网人才报告,然后里面会有一些薪酬的情况,供需的情况,包括不同公司的阶段的分布,城市的分布。你们可以给你们一些信息的关注和了解。
最后我想以一句话结束我今天的分享,就是巨大浪潮的开始往往起源于不为人所知的小小涟漪。巨大浪潮来了,大家准备好了吗?谢谢大家。
曹鑫:其实上面分享总结出来的两句话,就是学数据分析来CDA,找工作上拉钩。
前段时间我们好到什么程度,我们人力同事找到我说,我们有四个销售的同事离职了,我说是跳槽了吗?他说,不是,是跑到我们就业班开始学习数据分析师了。
我今天的主题是人人都是数据分析师,是一个文科院校的毕业生,编程零基础,从事的是市场营销工作,今年将近30岁高龄闯入数据分析师行业,开始一点点的学。我感觉到数据分析师行业对新人非常冷漠,但是没有关系,我知道有些人在这个时间应该找台阶往下走了,为什么?比方说各位再给我一年的时间,明年这个时候我给带来我数据分析师项目。但是我们是一家教育机构,我们标榜的就是能够帮助新人快速的入门,快速的成为数据分析师。所以今天我就带来了我的第一个数据分析项目,叫轻松押韵。这是我看娱乐节目的时候想到的,我可以通过分词、爬虫,汉语拼音,比对,让快速歌手可以快速找到押韵的词。我看完节目就想要做,以前的话我觉得缺少一个程序员或者缺少一个数据分析师,现在没有这个感觉,打开电脑直接干。这个项目已经上线了,Get up。大家可以看看一个活生生的例子,有摆在大家面前,为什么一个新人能够那么快的进入数据分析行业?答案非常明显,数据工具。我站在这里不是什么联合创始人,就是一个普普通通的学员,如果早年像俞敏洪老师那样推广新东方的话,我们这新一代人就是以学生的身份在推广CDA。如果各位去任何一家公司,第一句话就是你有没有学你的课?
我们坚持这个理念一直在做,这几年报名CDA的人超过5千人。但是还有人问你们有官方认证码?我们会不厌其烦的解释,我们希望通过公开公平公正严格的方式来筛选出最实力的数据分析师,持证进入企业。他们做出的成绩被更多企业和市场认可,证书才会有价值。下面有请工信部的刘兴波分享。
刘兴波:谢谢CDA的邀请。我自我介绍一下,我是工信部中国电子信息产业发展研究院旗下最大的互联网平台,也是一个最重要的互联网平台,赛迪网,同时我们是教育部考试中心授权的一个机构。我们事实上是有故事的,我们经过了一年多的对CDA的交流,沟通,我们多个部门之间和CDA之间,对他们的教学,对师资,对市场的表现,对培训内容的考核和视察,我们最后达成了合作的一致的意向。今天我之所以还能站在这个舞台上跟大家来分享,前面张总帮我们分享了现在薪酬最高的十个行业,我显然不在这十个领域之内。我仍然能站在这儿跟有希望冲到排名第一位的数据分析师在一起,我们在一个会场探讨大数据产业发展,探讨相关的人才培训的话题,我觉得还是蛮荣幸的给我这个机会。确实是这样,现在大数据从国内到全球来说非常热,也非常重要。中国在很多行业上,很多领域,现在都在后起发力,很重要的一点,很重要的两个行业:一个互联网,一个为互联网提供支撑的IT领域。中国在这个行业是有机会的,也确实是走在追赶和超越发达国家的道路上。
从国内大数据产业规模来说,现在对大数据的分析师,对大数据人才的需求也是非常的紧迫,也是非常的热切。有一个数据大家也都知道,我们全世界现在有将近191亿台设备连接在互联网上。平均每个人2.5个设备。我本人也保持着这个平均数,我的电脑,我的手机,我的两部Pad设备,都连在互联网。每天全世界产生的大数据流量2.5万亿GB。如果把这些数据装到标准的笔记本电脑,大概一天要装入4.6亿。这么庞大的数据量,它们经过加工、清洗、分析导入到不同的行业一定会带来巨大的商业价值。这还有后面互联网巨头不断加入这个数据量,百度在做无人驾驶汽车,他们有一个数据说无人驾驶汽车每一分钟产生的数据大概相当于我们现在每个人,每天产生的数据量。在5G开通以后,我想大数据量会越来越大,对数据分析师人才需求也会越来越强。
为什么从工信部体系和教育考核体系中心要对大数据分析师认证要有很强的关注呢?实际上这也是我们在看发达国家的经验,美国在大数据分析师上,在大数据就业人才上的分级,它的技术认证是很清晰的。我们未来要跟CDA合作大数据分析师的认证,我想本着一个主要的目的,就是从专业化、科学化、正规化为出发点,为国内的服务于大数据的技术人员来提供走向工作岗位,走向不同的技术体系这个过程中的你的技术能力,水平,还有未来发展的阶梯的标准化的服务过程。这个也是政府和产业界正在努力的事情。
最后我发表一点小小的感慨,今天站在这个台上,前面曹总介绍有几千人的报名,中国确实很厉害,今天是礼拜六了,周末美国人现在在床上,这个时间他们叫床上早餐。欧洲人正在规划自己周末出行到哪儿去玩儿。我们有这么多充满激情的技术人员坐在一起来探讨一个很重要的技术发展方向。我想中国在大数据这个领域,在互联网相关的领域,成为世界第一指日可待,有大家在。谢谢。
曹鑫:我是第一年以数据分析师的参加CDAS,也希望大家尽兴享受CDAS2017。谢谢。
主持人:谢谢。让我们再次把掌声送给他们。随着移动互联网,小型卫星普及等,资产管理公司,尤其对冲基金公司开始利用人工智能从新型数据中来寻找Alpha,接下来让我们用热烈的掌声有请合一创投首席科学家吴海山先生为我们进行具体的讲解。
吴海山:首先非常感谢CDAS的邀请,能够在今天周末的时间和大家分享一下我之前做的一些和数据分析相关的工作。我先简单跟大家分享一下我来合一一个很重要的动机。之前我在中国高校演讲或者交流也好,我发现数据科学和大数据已经成为好多中国学校的一个课程,甚至可能现在有些学校已经有了大数据专业,甚至有的学校成立了数据科学研究院或者数据科学这个专业。但是我发现一直没有很好的教材或者很好的线下组织,能够让学生接受到更多的业界里和数据科学、数据挖掘、数据分析相关的进展。有一次我碰到人大的赵总,发现CDAS是一个很好的组织,我认为它对数据挖掘能起很大的作用。所以我义不容辞很愿意来这里跟大家分享一下。
我介绍一下自己,我现在在一个合一创投工作,我们创始人是优酷的创始人。加入合一之前我在百度研究院大数据实验室做人工智能和数据相关的研究。我今天和大家分享的一个课题是,用人工智能和新型数据在金融投资里如何寻找新的Alpha?当时我选择这个课题的方向也是有原因的,刚才拉钩网张总介绍到,现在能够促使大家学习数据分析的很重要的动机,是我学习这个,我的工资可能会高一些,这个是一个很直接的数据。还有一个说,如果我学会了数据分析,我能够用数据帮我来赚钱,也是一个很重要的动机。所以我今天分享怎么样用新型的数据帮我们做投资,帮助我们从数据里找到属于我们的财富。
讲之前说一下什么叫新型数据?大家做投资,做股票、债券也好,或者其他的投资收益也好,我们一个很重要的信息是怎么看这个市场的变化,去分析这个市场的趋势。大家可以回想一下,从历史上来看我们人类是怎么样在金融市场上去来分析信息的变化,来做决策的。大家如果看到一本书《人类简史》的话能够想起来,当年应该在17世纪或者18世纪英国女皇投资了东印度公司,东印度公司去全世界殖民地也好,或者贩卖烟草、茶叶也好。这个公司的业绩的表现很大程度上取决于有没有海盗。这个信息的传播直接影响这个公司的财富的表现。所以那个时候市场信息的传达还没有这种变化,完全是靠着口头传播或者书信传播,这个效率是非常非常低的。所以谁先获取这个信息,他在市场上会有一定信息优势。随着电话、报纸的发展,其实市场的信息已经开始通过报纸、电话,甚至电报,应该是上个世纪的方式获得信息。
大家知道在20世纪70年代我们有了新型的资讯的终端和软件,我们可以终端上最快速的了解市场上发生的一些变化,来帮助我们做一些决策。但是这个平台有一个弊端,比如上面发布的信息都是公开的,像CPI反映通货膨胀的,政府可能一个月才公布一次,而且都是每个月,比如七月份今天刚刚结束,到八月中旬公开CPI指数,这在市场上有半个月延迟。这对做决策的价值已经比较小了。还有像其他的指数,像GDP,都是每个月或者每年更新一次,频率特别低。还有我们分析某一个公司和某一个企业的时候,像一些证券公司的分析员,怎么分析一个公司呢?实地去考察。比如投资一个水泥公司的,矿产公司的股票的话,我们是在考察,去看看这个矿产变化怎么样的,工人数量有没有增多。这个效率也是很低的,比如我下面有一千家水泥公司,我不可能一年,我就是一天去一个的话,一年也就去360个,所以这个不具有可扩展性。现在随着手机互联网的发展和物联网的发展,我们有了新型的数据,能够帮助我们自动的去分析,去实时的监测市场的变化来帮助我们做市场的决策。比如说我们现在有各种各样的传感器,比如手机,我每天在手机上都留下了大家上了什么网站,买过什么地方,所有信息都可以聚合起来分析市场的变化。所以我们可以通过这种方式来去对金融市场的信号来做一个实时的分析。
这些新型的数据包括哪些呢?第一个,我刚才讲的手机传感器的数据,像它能获取哪些数据呢,比如定位的,还有WIFI连接,这些数据能够实时看到这个市场消费的变化,比如把所有去过某个酒店用户的聚合起来,我就知道酒店消费、餐饮行业等一系列就业的变化。另外就是微型卫星,以前发射一个卫星,这个卫星特别大,发射成本也特别高,一个卫星可能要几亿美元。现在互联网的发展也在改变太空行业,像美国有一家公司,它是已经发射了大概150颗微型卫星。这个卫星大概也就这么大。这个卫星的好处是基本上可以每天实时的最地球进行观测。我们以前观测一个东西的时候要先打电话或者进行预约,说能不能看中国大饭店的一个区域,如果那天正好下雨还看不到。但是这个可以对全球实现7×24小时的变化,这个数据对我们做金融分析价值非常大的。尤其像农作物、房地产、港口贸易。我分享几个案例,是怎么用卫星图像来做金融市场分局分析的。
还有物联网数据,大家知道现在基本上很多传感器上,很多设备上都已经装了传感器,我们可能机器人身上有些传感器,我们家庭用的智能家居身上有传感器。这些传感器可以记录,比如物流车上的流动,可以记录工业机器人运行的数据,还可以看智能家居的变化。通过这些传感器的数据,我们可以实时分析物流上的变化,可以看到用电量的变化等等。还有一个是大家可能无时无刻看到的摄像头的数据,这个数据有哪些作用呢?比如大家去停车场停车的时候有一个设备,是计费的。这样可以看今天来中国大饭店开会的,或者去某个商场消费的客流量和车流量的变化,可以具体识别某个车型的型号。通过这种方式可以大概的估算一下,丰田汽车销售是什么样子的。所以这些来分析线下商场的商品消费,像汽车消费。
还有像日常生活中每天能接触到的就是支付终端的信息,像去某些地方消费,POS机信息也可以记录消费者刷卡数据,甚至购房、购车数据,都可以分析整体线下消费的趋势。
另外,现在越来越普及的,比如像大疆的无人机,这个无人机能实时拍摄,像农业的图像,像房产现在正在建筑的一些工程施工的图像。通过这些数据我们能来分析一些农业、地产,或者建设工程实地进展的变化。
这里显示的图是说哪些公司正在搜集和分析这些数据。我举个例子,左边这个是全部用来分析卫星图像的,就是刚才讲的美国的那家公司,这是Google投的一家公司,这个主要是为对冲基金公司来做服务的。还有像可以通过签到的数据发现线索下某个餐饮店销量的变化,他们用这个变化分析某个公司的财务的表现,结果是非常的准。还一个比较有意思的,这个公司是用来搜集用户信用卡刷卡数据,通过这个数据聚合来具体分析,比如说沃尔玛每天的销量,来通过这个看线下实时销售变化。会发现很多创业公司去来分析相关的数据,或者说叫一些新型的数据。我觉得这个趋势在美国已经发生,我觉得它在中国也正在发生,我认为接下来一段时间中国越来越多的公司通过新型数据分析为金融投资市场做决策。
这是金融市场信息扩散的一个表,左边的是任何人都能看到的金融市场的一些数据,比如像每个公司发布财报的信息,每个公司股价的历史信息,这个信息是每个人都能获取,每个人都能来分析,它能在市场产生Alpha的价格就很小了;但是新型的数据,像我提到的卫星图像的,甚至像微博等等数据都能用来分析做投资。
还有一些数据是刚兴起的,就是我刚才讲的,像物联网数据,包括无人机的数据,还有小型卫星Google地图的数据,这些信息我认为在接下来的市场能够产生Alpha的价值是非常大的。在座的各位如果想从事金融行业和数据行业,我觉得这块大家可以重点来关注的。
我现在分享一下我之前再过的用新型数据来做投资的案例。第一个,我们用定位的数据。这个是我们展示了手机定位数据一天的在除夕这一天全国用定位的可视化结果。大家看定位数据的本身,我们下面是没有放任何地图,这个可视化的定位数据本身已经能展示整个中国的轮廓,如果我们再放大一下,还能够看到具体的空间上的构造,比如看到黄河的轮廓,还有海河轮廓。发现人的定位数据的足迹可以非常好的刻画空间上的信息。这个对金融投资价值是非常大的。这是静态的。
还有一个展示北京一天二十四小时的动态变化。
还有一个没有提到的,就是用人工智能的数据分析线下消费的数据。我刚才提到一个指数,叫CPI指数来衡量通货膨胀的,这个数据一般是政府,像国家统计局每个月都会有调查员实地的调查考察和分析。美国有一家公司,它用图像分析的方式来去看市场上价格变化,怎么做呢?比如大家每天去超市买东西,买完东西以后如果用手机拍下小票的照片,或者能够在超市看到价格的图片,拍上去后后面会用人工智能的方式分析这个图片,它后面会找到价格的信息。它通过这种方式可以实时看任何一个国家线下消费数据,这样可以看到每天的通货膨胀的变化。这个数据已经被世界银行和很多组织来应用这个数据。
还有用卫星图像分析的,大家看这是用卫星图像捕捉到地球上某个国家,某个区域储存石油的储油罐的图片。他们会有一些算法,能够根据图片识别出储油罐阴影面积的大小来算高度,进而通过这种方式算五可能的储油量的变化。通过这种方式可以每天扫一遍全球储油量的变化,这对全球石油交易非常非常有用的。还有用卫星图像看区域经济发展的,像我刚才讲的世界银行,世界银行想去为非洲不发达国家贷款,它面临的问题是到底贷多少款给他们,像有些国家长期处于战乱无法获取这个信息。但是可以通过卫星图像,像这个地方楼型建筑比较好,可以认为比较发达,还有些房屋是破破烂烂的,所以斯坦福大学建立了一套方法,根据卫星图像来进行分析来为世界银行提供服务。
还可以看一个零售商的变化,以美国为例,美国超市都建在郊区,大家买东西都把车停在商场的旁边。如果通过卫星图像和机器学习的方式,识别每天商场旁边停多少车,就可以测算出来每天有多少人来超市。
我们做的工作是用卫星图像和结合其他的数据去识别空间区域的功能。第一,我们左边是卫星图像,然后又结合路网的信息,比如我们这个区域是一个路,然后再结合刚才说的手机移动数据定位,然后我们自动识别这个区域是工行,这个区域是写字楼。这是我们叫全卷积神经网络的一个算法,我就不展开说了,大家可以在我们网站上看到这个算法。这个是我们识别出来的几个案例,这两个案例都是我们识别出来的功能上的区域,这个边界是通过算法识别出来的功能边界。这个是通过深度学习再结合卫星图像去识别空间区域功能。还有一个移动手机定位的数据,我把这两个数据结合起来,比如左边的图是上海的一个地图,右边两个:蓝色的区域代表了我们用刚才的算法去识别的工厂,下面的区域是我们用这个算法来识别的商场写字楼。我们有了这两个区域之后,我们再结合用户的定位数据,比如这是一个用户的线下移动的规矩,用有机算法来算出用户去什么地方消费,在什么地方驱逐。把这些信息聚合起来可以实时看某个区域的劳动力的变化。尤其是对证券和投行的分析师,他们调研的时候工厂必须去考察,但是现在有了卫星图像可以识别这个区域,和有多少人在这儿工作,就可以识别出来这个区域的劳动力观察,就不用去现场考察了。
这个图可以看到劳动力在第六年有明显的下滑,这个倒闭的其中一个是苏州的工厂。下面两个是反过来的,有很多人搬到这里工作,或者说这个公司融资完之后开始大规模的扩张,会发现劳动力也有大幅度提升。
通过这种方式我就可以实时来看全国的各个工业园区劳动力的变化。如果说把劳动力数量聚合起来,就可以来看基本上整个中国范围内宏观的就业趋势的变化。大家知道衡量宏观经济还有一个指标,叫失业率。失业率在中国每年政府工作公布的数字都是在4%。我们的数据其实发现,可能结果不一定是这个样子的,我们这个给出来是一个,我们发现就业园区就业的趋势其实整体来讲是有一定的下滑的。但是正如刚才拉钩网展示的数据发现,其实我们发现新兴工业园区,尤其像高科技园区,或者像生物制药园区,它的就业趋势是上升的。所以说新兴工业园区就业趋势我们认为是比较好的。
这是我们给出了全国非常大的四千个商业中心的数据,我们刚才讲通过卫星数据可以识别商场的边界,可以通过定位数据识别到每天有多少人来这里消费。把两个聚合起来可以看到全国范围宏观的线下整体消费趋势。这里其实包括了很多像银泰或者万达很多商超聚合的结果。我们也可以看具体的某个公司的趋势来做分析的。
刚才讲到通过卫星图像来获取一个区域边界,再通过定位的方式聚合,来去看这个区域的消费和就业。还一个方式,比如银泰商场有一个海底捞,如何看海底捞里具体的消费呢?我们有一个深度学习的算法,能够自动识别预测用户是不是到访这样一个具体地点的概率。大体就是我们会用很多种数据,像定位数据、签到等数据,然后结合贝音丝深度学习的算法来预测客户到访海底捞的概率。有了这个到访概率我们算法的准确度非常高。所以如果能预测某个客户具体到访每个地方的话,就可以看用户到某个地点的客流量的变化,这是我们预测的用户到访大中华区中国大陆的30个苹果旗舰店的客流量的变化。通过客流的变化预测苹果公司在大中华区财务营收的变化。前两次我们模型的误差都非常低,在2015年Q4预测的结果可能要上升15%,它们财报结果是14%。另外一次我们认为它2016年结果要下滑25%,它们财报是26%。这个其实从另外一个侧面证明了,通过签到的数据,WIFI定位的数据去预测一个公司的营收结果是靠谱的。
还有预测电影院的票房收入,我们可以通过历史的时间序列建一个模型去预测。我们现在是把用户去到访电影院或者搜索电影院,或者签到电影院数量作为一个特征去预测电影票收入,我们发现这个模型准确度提升的非常高。红色的结果是我们使用了新型数据预测结果,蓝色的结果是我们只用时间序列预测,发现误差降低非常多。如果我们预测比较准,可以预测电影院营收的状况。这个B,我们预测了保利的电影院,我们预测的误差非常小。我们对新型数据预测这家连锁电影院票房结果是非常准的。但是用同样的方法预测另外一家电影院,发现曾经有一段时间预测的误差特别高,像8-9月份。我们模型预测的票房收入可能会比较少,但是它报出来的电影票房非常高。后来我们调查,因为这个电影院上映了《捉妖记》,进行了电影票房的作弊。
我们看一下具体行业的,这个是汽车的,这个是我们用新型数据到访4S店的数据,这样可以看出来汽车销量变化。为了证明我们结果是靠谱的,我们把我们数据,蓝色的线和汽车工业协会的线做了对比,我们发现我们的趋势跟它们非常吻合的。但是我们的结果好处是,新型数据可以实时分析这个市场的变化。所以我们结果对分析市场变化是有很大的优势的。
第二个产业,是线下餐饮行业的变化,我们把所有的到访,像麦当劳、全聚德等店的到访,我们做了中国线下餐饮消费指数。为了证明我们这个比较靠谱,我们和另外一家公司的指数对比,是银联,大家在POS机上刷卡的指数,我们发现在2016年之前整体是非常吻合的,但是我们的结果在2016年之后线下餐饮行业的趋势下滑非常严重的。后来我们调研分析我们认为我们结果更靠谱,因为尤其是像外卖行业,其实在很大程度上影响了线下很多餐饮行业的变化,很多人可能就直接叫外卖,不用去餐饮店吃了。
还有一个应用就是对房地产投资的。大家知道这种情况在中国是非常常见的,就是中国有很多空的楼盘没有人住。很多媒体开始报道哪些地方是鬼城。但是没有一家用数据的方式帮助我们分析这个城市是否空的很厉害,到底空的多厉害?我们刚才讲过我们可以用用户手机定位的数据和手机图像的数据,我们可以通过机器学习和人工智能算法去识别,从而我们发现中国很多的空置率,这是我们给出九个空城特别多的区域。这个是鄂尔多斯,这个城市非常有意思,之前大家说鄂尔多斯是空城,这个空在什么地方呢,其实大家没有概念的。我们发现一个非常有意思的现象,是鄂尔多斯的新城区空的很厉害,就是左下角这个,跟媒体报道是比较一致的。还有右上角发现主城区的郊区空置的楼盘也很多。这个城市很有意思,就是很多由于原来逐渐衰败的城市除了新城区衰落,其实郊区的一些房子入住率也是比较低的,很重要的原因就是这个地方的就业率开始下降,很多真开始搬到其他地方去居住和工作了。但是我们也发现一个比较意思的现象,是之前媒体报道特别多的城市是郑州的新区,但是我们数据发现现在越来越多的年轻人愿意去新区工作。我们认为郑州新区不能再是传说中的空城。这是我们用数据发现中国房地产的变化。
我们的研究也获得了很多国内外知名媒体的报道,这是一些报道我们相关研究的媒体。非常感谢大家在周末时间来到CDA现场,非常高能与大家分享之前做的研究。谢谢。
主持人:谢谢。下面有请IBM中国开发中心,技术总监&首席架构师Alex Yang为我们分享机器学习的商业应用。有请。
Alex Yang:很高兴今天来到CDA峰会现场,过去几年我们跟它们有很好的合作。我带来的是吴先生提到的非常细节的,分析里面跳出来到达3千米的高空,我们看一看在这些领域发生了什么,IBM为什么在这个里面进行特殊的处理?我现在是IBM研发中心的技术总监,大部分时间处理跟AI有关的项目上,试图把真实的场景,真实的商业应用的经验能凝练成对每个数据分析师都有价值的功能,逐渐放到产品里面去。
今天我们来看一下,6月27号大家可能关注过,IBM和美国的空军AI实验室准备联合一起来做一款新的类人的类脑芯片。这个芯片很重要的是说在目前已经实现了把当时去年我们的一个叫罗斯的芯片放在一起,实现了一个聚合。整个芯片是以神经元方式来实现的。中间的图是我们给到美国的一个国家实验室的一个图,可以想像16×4放在一起,就是最近我们的一个工作。
做这样的芯片目的是什么呢?我们知道现在大量的,刚才吴先生讲的这些所有的机损,大量的都用到了神经元网络。当然我们也知道神经网络这种计算目前给我们带来很多惊喜在很多不同的领域里,当然它也不是唯一能够达到目标的一种算法。但是因为神经网络带来很多惊喜,我们现在通过大量的具体的数据的聚合,和各个领域里的数据的分析,我们发现说很多的计算是需要大规模的计算能力,以及大规模的存储的能力。而以我们现有的机器来看,其实是一个削足适履的过程。所以IBM为什么从传统的机器过渡到类的机器,因为现有的机器是做普通的机损和数值的计算,而大量的机器学习会用到大量的神经元网络类似的,而这个用现有的技术做有很大程度上是削足适履。像用英特尔的芯片必须用GPU才能做好。所以IBM另辟蹊径开辟了类脑芯片。当然不是IBM一家,包括中科院和其他的也在这方面做探索。
这个类脑芯片很重要的特点,就是它对能量的要求,对电池的要求非常低。大家可以想象一下,未来手机可能也是一个神经网络,我的手机可以变成随时随地识别的,见了什么,听了什么都可以看到,都可以实时识别。
下面一个大家猜一猜这是一个什么样的机器?非常巨大,占好几个屋子。有的人可能联想到了,在几十年以前IBM的主机,以及后来的小型机,。这个就是IBM最新的量子计算机,起的名字也很Q,叫MQ。现在IBM量子计算机可以实现五个量子的输出。在这种计算下面的话,用传统的机器,可能若干年我们讲10-25次方天计算的量,目前我们做到的是五个量子的输出。对比一下,为什么五个量子输出也很重要,IBM目标做到大概是50个量子的输出。做到50个量子的话,为什么是50,而不是49?据说现有的最好的计算机合在一起都做不到49,接近49,如果能做到50,那么就是超越了所有现有的计算机了。所以在这个领域IBM也在持续的发力。
来源:CDA数据分析师峰会:跨界互联数聚未来