楼主: admin_kefu
1695 2

[经济类] 2017年中国数据分析师行业峰会:跨界互联数聚未来 [推广有奖]

客服管理员

泰斗

35%

还不是VIP/贵宾

-

TA的文库  其他...

管理文库

威望
3
论坛币
29361653 个
通用积分
12947.8867
学术水平
545 点
热心指数
662 点
信用等级
522 点
经验
111456 点
帖子
3202
精华
13
在线时间
32828 小时
注册时间
2010-6-2
最后登录
2024-4-23

初级信用勋章 中级信用勋章 初级热心勋章 初级学术勋章 中级学术勋章 中级热心勋章

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

2017年中国数据分析师行业峰会:跨界互联数聚未来


跨界互联·数聚未来

第四届中国数据分析师行业峰会

主题:主会场——跨界互联数聚未来

地点:中国大饭店


   主持人:现场尊敬的各位,女士们、先生们,同步收看直播的网友朋友们,大家上午好!这里是跨界互联,数聚未来峰会的现场。我代表大会主办方对各位的到来表示最热烈的欢迎和最诚挚的感谢!谢谢各位!同时,要感谢永恒科技,诸葛IO等对本次峰会的大力支持,以及感谢有道云笔记提供的全程速记支持。本届峰会除了看到的主会场以外,还有生物医疗、云计算、电商、大数据四个分会场进行。


)T3[1WLL{`PM57(OK7XL1.png


   毋庸置疑,现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流日趋密切,大数据就是这个高科技时代的产物。未来的时代将不再是IT时代,而是DT时代。大数据已经成为企业最重要的核心资产之一,基于大数据的商业变革也将造就千亿级的市场。今天在我们相聚一堂,共聚一堂,下面通过一段特别视频开启今天的大数据之旅。

   

   曹鑫:欢迎来到CDAS。非常高兴跟大家再次聚到CDAS,非常厉害,今年也是打破了我们单日报名人数的最大规模,今年的报名人数单日超过4700人。我有时候自己也在电脑前想,在座各位真的都知道CDAS是什么吗?还是说前两天在公司没事儿做,打开活动行一看,有个活动排名第一,报名人数还挺多,大数据。按有这样的人希望你能体验到最好的CDAS。今年我们做了一个改变,每年我一上台有人吐槽,说看看看,广告有来了,我非常不喜欢被叫做广告,所以今年我们在同一时间开了四场分论坛:生物医疗,云计算,电商,互联网,我刚刚看了已经爆满了。如果在座的各位听不下去了可以到那四个分论坛走一走,没关系的。但是这个舞台有一个嘉宾是来自合一创投的吴海山先生,他是人工智能的专家,所以如果大家对这个感兴趣的话可以在这等一会儿。今天有超过60个嘉宾、11个分论坛,所以我相信今天会给大家带来非常好的体验。说到体验我们今天还有一个好好的优化,每年大家都会说资料怎么获得?我们把60位嘉宾的演讲资料全部都放到邮件里面,大家只要扫描这个二维码,就可以找到自己想要的分论坛资料。今年除了在场的各位,我还要感谢一下七家直播给我们做直播,非常感谢。特别要提的是IT大咖说给我们所有的演讲做了录制,非常感谢他们。除了直播,还有60多家媒体,希望各位能够把我们CDAS有意思的事情传播给更多的数据分析师


   说完了感谢,得介绍介绍我们自己,因为可能还有朋友不知道CDA分析师,我们是在国内一直致力于做数据分析的学习社区,打造一个最棒的学习社区。我们在过去的一年,从北京到上海,到苏州,到长沙,到成都,到广州,到深圳,我们走到数据分析师中间,跟他们去做分享、交流,我们最有特色的一个活动,是CDA持证人分享,他们分享自己的学习经验,分享自己的职业发展经验,前辈在上面讲,后面在下面听,就是这样一个社区,有人进入,有人进步,非常健康。也是因为上海跟深圳特别好的氛围,我们今年在上海跟深振业开了分公司。因为我们觉得社区不仅仅是交流,更重要的是帮年轻的新人们学到知识,找到好工作。我们最受欢迎的产品,其实就是我们的CDA就业班。这个地方有什么好鼓掌的?这个有托儿的嫌疑了。关于CDA就业班我说两个数据,这两个数据我觉得是值得鼓掌的:第一个数据,就业率。大家可以看,我们就业率从第一期到第八期,已经到了97%。平均应该到了95%以上。这是我们就业率。其实我们同事,就是刚刚鼓掌的同事,他私下跟我说那个97%其实没有就业的同学是去读了研究生。第二个数据是平均起薪。大家可以看一下,我们最高的已经到了9900元。所以这个地方我觉得我们真的值得为我们就业班同事鼓鼓掌,你们干的真的非常棒。我知道还有朋友没有鼓掌,我不知道你们心里在想什么,每年我在这里就有人吐槽,我发现我们CDAS观众很喜欢吐槽的,你这是王婆卖瓜,自卖自夸。今年王婆不是一个人,王婆和他的朋友一起卖瓜。有请拉钩网商业化的负责人张华武先生。


   张华武:大家好,我是负责拉钩的商业化。拉钩讲的未来争夺的能源是数据。为什么讲这个呢?因为我要铺垫下面一个,就是现在很多的大佬,包括一些大厂开始在大数据方面做了很强的布局,未来争夺是非常非常激烈的。所以在大数据时代,数据分析师在互联网行业占据着非常重要的地位。接下来我来分享一下我们拉钩看到的几个数据。


   从地域角度来看,数据分析师的从业人员跟互联网的从业人员的分布,从分布上来看的话正好是一致的,基本上以北上广深杭州这样的一些互联网重镇,一线城市为主。第二个,从整个行业角度来看的话,数据分析师分布在移动互联,电子商务,金融等方面。当我们把移动互联,因为移动互联和电子商务,包括数据、金融都有交叉的地方,所以把移动互联单独列出来。电子商务由于电商化的一些平台对数字运用的非常好,所以这里数据分析师从业人员应用非常多。


   接下来看一下作为互联网新兴行业,它的从业人员的年纪,其实相对来说比较偏向与年轻。也有像CDA这样行业不断向行业输送数据分析师这样岗位的人才。做数据分析其实最专业的要求还是会有的,比如说学习计算机出身的,统计学,数学等等一系列专业,如果你从事数据分析的话是非常非常有优势的。这个可能是在座的每一位比较关心的,这个是从拉钩的职位以及企业发布的职位的薪酬统计出来的数据,包括候选人他们对数据分析师这样的岗位对薪酬的期待。所以你们可以看到从2015年3月份到2017年2月份,他的薪资是逐渐的增高的,每个月份都会有增长,所以整体的薪酬和他的经验是正相关。可以看到,这个行业如果说有十年以上的经验的人员的话,他们的薪资已经起薪到36.9P,这个薪资是非常高的。并且每一年我们在拉钩上拉了一下数据,这个行业薪酬最高的Top10数据分析,它在2016年-2017年的涨幅达到了最高,同比涨幅是19.27%。基本上是Top1。所以我们能够明确的看到,就是在今年我们发布了上半年的2017年的人才流动报告,可以看到什么行业最有前景,看到什么职位最高薪,通过数据可以看到:大数据行业最有前景,最高薪的职位是数据开发,后面还有数据分析。我在拉钩输了一下跟数据相关的岗位,发现发这个数据的职位超过15000家,这个需求非常大,并且职位的发布的增长数是不断增加的。大家我们有一个小程序,大家可以在拉钩上看一看这些职位的要求,包括你们所关注的大厂基本都在里面有一些职位,关于数据分析的。


   关于拉钩我讲一讲,因为拉钩一直关注于互联网行业的人的成长,包括他们的就业,以及更好的连接企业和人。刚刚我们结束了拉钩的四周年的庆典活动,其实拉钩是一家非常年轻的公司,到这个阶段我们其实对于这个行业的每一波的浪潮,比如说最早的像O2O,包括双创和互联网+,以及共享经济,和接下来的大数据时代,所以我们都是这个行业比较好的一个观察者,我们也会提供很多的我们的见闻和观察给到大家。刚才的内容说的比较简单,大家可以看一看我们拉钩每年针对季度发布我们的互联网人才报告,然后里面会有一些薪酬的情况,供需的情况,包括不同公司的阶段的分布,城市的分布。你们可以给你们一些信息的关注和了解。


   最后我想以一句话结束我今天的分享,就是巨大浪潮的开始往往起源于不为人所知的小小涟漪。巨大浪潮来了,大家准备好了吗?谢谢大家。


   曹鑫:其实上面分享总结出来的两句话,就是学数据分析来CDA,找工作上拉钩。


   前段时间我们好到什么程度,我们人力同事找到我说,我们有四个销售的同事离职了,我说是跳槽了吗?他说,不是,是跑到我们就业班开始学习数据分析师了。


   我今天的主题是人人都是数据分析师,是一个文科院校的毕业生,编程零基础,从事的是市场营销工作,今年将近30岁高龄闯入数据分析师行业,开始一点点的学。我感觉到数据分析师行业对新人非常冷漠,但是没有关系,我知道有些人在这个时间应该找台阶往下走了,为什么?比方说各位再给我一年的时间,明年这个时候我给带来我数据分析师项目。但是我们是一家教育机构,我们标榜的就是能够帮助新人快速的入门,快速的成为数据分析师。所以今天我就带来了我的第一个数据分析项目,叫轻松押韵。这是我看娱乐节目的时候想到的,我可以通过分词、爬虫,汉语拼音,比对,让快速歌手可以快速找到押韵的词。我看完节目就想要做,以前的话我觉得缺少一个程序员或者缺少一个数据分析师,现在没有这个感觉,打开电脑直接干。这个项目已经上线了,Get up。大家可以看看一个活生生的例子,有摆在大家面前,为什么一个新人能够那么快的进入数据分析行业?答案非常明显,数据工具。我站在这里不是什么联合创始人,就是一个普普通通的学员,如果早年像俞敏洪老师那样推广新东方的话,我们这新一代人就是以学生的身份在推广CDA。如果各位去任何一家公司,第一句话就是你有没有学你的课?


   我们坚持这个理念一直在做,这几年报名CDA的人超过5千人。但是还有人问你们有官方认证码?我们会不厌其烦的解释,我们希望通过公开公平公正严格的方式来筛选出最实力的数据分析师,持证进入企业。他们做出的成绩被更多企业和市场认可,证书才会有价值。下面有请工信部的刘兴波分享。


   刘兴波:谢谢CDA的邀请。我自我介绍一下,我是工信部中国电子信息产业发展研究院旗下最大的互联网平台,也是一个最重要的互联网平台,赛迪网,同时我们是教育部考试中心授权的一个机构。我们事实上是有故事的,我们经过了一年多的对CDA的交流,沟通,我们多个部门之间和CDA之间,对他们的教学,对师资,对市场的表现,对培训内容的考核和视察,我们最后达成了合作的一致的意向。今天我之所以还能站在这个舞台上跟大家来分享,前面张总帮我们分享了现在薪酬最高的十个行业,我显然不在这十个领域之内。我仍然能站在这儿跟有希望冲到排名第一位的数据分析师在一起,我们在一个会场探讨大数据产业发展,探讨相关的人才培训的话题,我觉得还是蛮荣幸的给我这个机会。确实是这样,现在大数据从国内到全球来说非常热,也非常重要。中国在很多行业上,很多领域,现在都在后起发力,很重要的一点,很重要的两个行业:一个互联网,一个为互联网提供支撑的IT领域。中国在这个行业是有机会的,也确实是走在追赶和超越发达国家的道路上。


2D82)OD3)~8(@(~6_KNA(JF.png


   从国内大数据产业规模来说,现在对大数据的分析师,对大数据人才的需求也是非常的紧迫,也是非常的热切。有一个数据大家也都知道,我们全世界现在有将近191亿台设备连接在互联网上。平均每个人2.5个设备。我本人也保持着这个平均数,我的电脑,我的手机,我的两部Pad设备,都连在互联网。每天全世界产生的大数据流量2.5万亿GB。如果把这些数据装到标准的笔记本电脑,大概一天要装入4.6亿。这么庞大的数据量,它们经过加工、清洗、分析导入到不同的行业一定会带来巨大的商业价值。这还有后面互联网巨头不断加入这个数据量,百度在做无人驾驶汽车,他们有一个数据说无人驾驶汽车每一分钟产生的数据大概相当于我们现在每个人,每天产生的数据量。在5G开通以后,我想大数据量会越来越大,对数据分析师人才需求也会越来越强。


   为什么从工信部体系和教育考核体系中心要对大数据分析师认证要有很强的关注呢?实际上这也是我们在看发达国家的经验,美国在大数据分析师上,在大数据就业人才上的分级,它的技术认证是很清晰的。我们未来要跟CDA合作大数据分析师的认证,我想本着一个主要的目的,就是从专业化、科学化、正规化为出发点,为国内的服务于大数据的技术人员来提供走向工作岗位,走向不同的技术体系这个过程中的你的技术能力,水平,还有未来发展的阶梯的标准化的服务过程。这个也是政府和产业界正在努力的事情。


   最后我发表一点小小的感慨,今天站在这个台上,前面曹总介绍有几千人的报名,中国确实很厉害,今天是礼拜六了,周末美国人现在在床上,这个时间他们叫床上早餐。欧洲人正在规划自己周末出行到哪儿去玩儿。我们有这么多充满激情的技术人员坐在一起来探讨一个很重要的技术发展方向。我想中国在大数据这个领域,在互联网相关的领域,成为世界第一指日可待,有大家在。谢谢。


   曹鑫:我是第一年以数据分析师的参加CDAS,也希望大家尽兴享受CDAS2017。谢谢。


   主持人:谢谢。让我们再次把掌声送给他们。随着移动互联网,小型卫星普及等,资产管理公司,尤其对冲基金公司开始利用人工智能从新型数据中来寻找Alpha,接下来让我们用热烈的掌声有请合一创投首席科学家吴海山先生为我们进行具体的讲解。


   吴海山:首先非常感谢CDAS的邀请,能够在今天周末的时间和大家分享一下我之前做的一些和数据分析相关的工作。我先简单跟大家分享一下我来合一一个很重要的动机。之前我在中国高校演讲或者交流也好,我发现数据科学和大数据已经成为好多中国学校的一个课程,甚至可能现在有些学校已经有了大数据专业,甚至有的学校成立了数据科学研究院或者数据科学这个专业。但是我发现一直没有很好的教材或者很好的线下组织,能够让学生接受到更多的业界里和数据科学、数据挖掘、数据分析相关的进展。有一次我碰到人大的赵总,发现CDAS是一个很好的组织,我认为它对数据挖掘能起很大的作用。所以我义不容辞很愿意来这里跟大家分享一下。


   我介绍一下自己,我现在在一个合一创投工作,我们创始人是优酷的创始人。加入合一之前我在百度研究院大数据实验室做人工智能和数据相关的研究。我今天和大家分享的一个课题是,用人工智能和新型数据在金融投资里如何寻找新的Alpha?当时我选择这个课题的方向也是有原因的,刚才拉钩网张总介绍到,现在能够促使大家学习数据分析的很重要的动机,是我学习这个,我的工资可能会高一些,这个是一个很直接的数据。还有一个说,如果我学会了数据分析,我能够用数据帮我来赚钱,也是一个很重要的动机。所以我今天分享怎么样用新型的数据帮我们做投资,帮助我们从数据里找到属于我们的财富。


   讲之前说一下什么叫新型数据?大家做投资,做股票、债券也好,或者其他的投资收益也好,我们一个很重要的信息是怎么看这个市场的变化,去分析这个市场的趋势。大家可以回想一下,从历史上来看我们人类是怎么样在金融市场上去来分析信息的变化,来做决策的。大家如果看到一本书《人类简史》的话能够想起来,当年应该在17世纪或者18世纪英国女皇投资了东印度公司,东印度公司去全世界殖民地也好,或者贩卖烟草、茶叶也好。这个公司的业绩的表现很大程度上取决于有没有海盗。这个信息的传播直接影响这个公司的财富的表现。所以那个时候市场信息的传达还没有这种变化,完全是靠着口头传播或者书信传播,这个效率是非常非常低的。所以谁先获取这个信息,他在市场上会有一定信息优势。随着电话、报纸的发展,其实市场的信息已经开始通过报纸、电话,甚至电报,应该是上个世纪的方式获得信息。


   大家知道在20世纪70年代我们有了新型的资讯的终端和软件,我们可以终端上最快速的了解市场上发生的一些变化,来帮助我们做一些决策。但是这个平台有一个弊端,比如上面发布的信息都是公开的,像CPI反映通货膨胀的,政府可能一个月才公布一次,而且都是每个月,比如七月份今天刚刚结束,到八月中旬公开CPI指数,这在市场上有半个月延迟。这对做决策的价值已经比较小了。还有像其他的指数,像GDP,都是每个月或者每年更新一次,频率特别低。还有我们分析某一个公司和某一个企业的时候,像一些证券公司的分析员,怎么分析一个公司呢?实地去考察。比如投资一个水泥公司的,矿产公司的股票的话,我们是在考察,去看看这个矿产变化怎么样的,工人数量有没有增多。这个效率也是很低的,比如我下面有一千家水泥公司,我不可能一年,我就是一天去一个的话,一年也就去360个,所以这个不具有可扩展性。现在随着手机互联网的发展和物联网的发展,我们有了新型的数据,能够帮助我们自动的去分析,去实时的监测市场的变化来帮助我们做市场的决策。比如说我们现在有各种各样的传感器,比如手机,我每天在手机上都留下了大家上了什么网站,买过什么地方,所有信息都可以聚合起来分析市场的变化。所以我们可以通过这种方式来去对金融市场的信号来做一个实时的分析。


   这些新型的数据包括哪些呢?第一个,我刚才讲的手机传感器的数据,像它能获取哪些数据呢,比如定位的,还有WIFI连接,这些数据能够实时看到这个市场消费的变化,比如把所有去过某个酒店用户的聚合起来,我就知道酒店消费、餐饮行业等一系列就业的变化。另外就是微型卫星,以前发射一个卫星,这个卫星特别大,发射成本也特别高,一个卫星可能要几亿美元。现在互联网的发展也在改变太空行业,像美国有一家公司,它是已经发射了大概150颗微型卫星。这个卫星大概也就这么大。这个卫星的好处是基本上可以每天实时的最地球进行观测。我们以前观测一个东西的时候要先打电话或者进行预约,说能不能看中国大饭店的一个区域,如果那天正好下雨还看不到。但是这个可以对全球实现7×24小时的变化,这个数据对我们做金融分析价值非常大的。尤其像农作物、房地产、港口贸易。我分享几个案例,是怎么用卫星图像来做金融市场分局分析的。


KEV7PQ7}~P3_4H3_P6}H5WJ.png


   还有物联网数据,大家知道现在基本上很多传感器上,很多设备上都已经装了传感器,我们可能机器人身上有些传感器,我们家庭用的智能家居身上有传感器。这些传感器可以记录,比如物流车上的流动,可以记录工业机器人运行的数据,还可以看智能家居的变化。通过这些传感器的数据,我们可以实时分析物流上的变化,可以看到用电量的变化等等。还有一个是大家可能无时无刻看到的摄像头的数据,这个数据有哪些作用呢?比如大家去停车场停车的时候有一个设备,是计费的。这样可以看今天来中国大饭店开会的,或者去某个商场消费的客流量和车流量的变化,可以具体识别某个车型的型号。通过这种方式可以大概的估算一下,丰田汽车销售是什么样子的。所以这些来分析线下商场的商品消费,像汽车消费。


   还有像日常生活中每天能接触到的就是支付终端的信息,像去某些地方消费,POS机信息也可以记录消费者刷卡数据,甚至购房、购车数据,都可以分析整体线下消费的趋势。


   另外,现在越来越普及的,比如像大疆的无人机,这个无人机能实时拍摄,像农业的图像,像房产现在正在建筑的一些工程施工的图像。通过这些数据我们能来分析一些农业、地产,或者建设工程实地进展的变化。


   这里显示的图是说哪些公司正在搜集和分析这些数据。我举个例子,左边这个是全部用来分析卫星图像的,就是刚才讲的美国的那家公司,这是Google投的一家公司,这个主要是为对冲基金公司来做服务的。还有像可以通过签到的数据发现线索下某个餐饮店销量的变化,他们用这个变化分析某个公司的财务的表现,结果是非常的准。还一个比较有意思的,这个公司是用来搜集用户信用卡刷卡数据,通过这个数据聚合来具体分析,比如说沃尔玛每天的销量,来通过这个看线下实时销售变化。会发现很多创业公司去来分析相关的数据,或者说叫一些新型的数据。我觉得这个趋势在美国已经发生,我觉得它在中国也正在发生,我认为接下来一段时间中国越来越多的公司通过新型数据分析为金融投资市场做决策。


   这是金融市场信息扩散的一个表,左边的是任何人都能看到的金融市场的一些数据,比如像每个公司发布财报的信息,每个公司股价的历史信息,这个信息是每个人都能获取,每个人都能来分析,它能在市场产生Alpha的价格就很小了;但是新型的数据,像我提到的卫星图像的,甚至像微博等等数据都能用来分析做投资。

   

   还有一些数据是刚兴起的,就是我刚才讲的,像物联网数据,包括无人机的数据,还有小型卫星Google地图的数据,这些信息我认为在接下来的市场能够产生Alpha的价值是非常大的。在座的各位如果想从事金融行业和数据行业,我觉得这块大家可以重点来关注的。


   我现在分享一下我之前再过的用新型数据来做投资的案例。第一个,我们用定位的数据。这个是我们展示了手机定位数据一天的在除夕这一天全国用定位的可视化结果。大家看定位数据的本身,我们下面是没有放任何地图,这个可视化的定位数据本身已经能展示整个中国的轮廓,如果我们再放大一下,还能够看到具体的空间上的构造,比如看到黄河的轮廓,还有海河轮廓。发现人的定位数据的足迹可以非常好的刻画空间上的信息。这个对金融投资价值是非常大的。这是静态的。


   还有一个展示北京一天二十四小时的动态变化。


   还有一个没有提到的,就是用人工智能的数据分析线下消费的数据。我刚才提到一个指数,叫CPI指数来衡量通货膨胀的,这个数据一般是政府,像国家统计局每个月都会有调查员实地的调查考察和分析。美国有一家公司,它用图像分析的方式来去看市场上价格变化,怎么做呢?比如大家每天去超市买东西,买完东西以后如果用手机拍下小票的照片,或者能够在超市看到价格的图片,拍上去后后面会用人工智能的方式分析这个图片,它后面会找到价格的信息。它通过这种方式可以实时看任何一个国家线下消费数据,这样可以看到每天的通货膨胀的变化。这个数据已经被世界银行和很多组织来应用这个数据。


   还有用卫星图像分析的,大家看这是用卫星图像捕捉到地球上某个国家,某个区域储存石油的储油罐的图片。他们会有一些算法,能够根据图片识别出储油罐阴影面积的大小来算高度,进而通过这种方式算五可能的储油量的变化。通过这种方式可以每天扫一遍全球储油量的变化,这对全球石油交易非常非常有用的。还有用卫星图像看区域经济发展的,像我刚才讲的世界银行,世界银行想去为非洲不发达国家贷款,它面临的问题是到底贷多少款给他们,像有些国家长期处于战乱无法获取这个信息。但是可以通过卫星图像,像这个地方楼型建筑比较好,可以认为比较发达,还有些房屋是破破烂烂的,所以斯坦福大学建立了一套方法,根据卫星图像来进行分析来为世界银行提供服务。


   还可以看一个零售商的变化,以美国为例,美国超市都建在郊区,大家买东西都把车停在商场的旁边。如果通过卫星图像和机器学习的方式,识别每天商场旁边停多少车,就可以测算出来每天有多少人来超市。


   我们做的工作是用卫星图像和结合其他的数据去识别空间区域的功能。第一,我们左边是卫星图像,然后又结合路网的信息,比如我们这个区域是一个路,然后再结合刚才说的手机移动数据定位,然后我们自动识别这个区域是工行,这个区域是写字楼。这是我们叫全卷积神经网络的一个算法,我就不展开说了,大家可以在我们网站上看到这个算法。这个是我们识别出来的几个案例,这两个案例都是我们识别出来的功能上的区域,这个边界是通过算法识别出来的功能边界。这个是通过深度学习再结合卫星图像去识别空间区域功能。还有一个移动手机定位的数据,我把这两个数据结合起来,比如左边的图是上海的一个地图,右边两个:蓝色的区域代表了我们用刚才的算法去识别的工厂,下面的区域是我们用这个算法来识别的商场写字楼。我们有了这两个区域之后,我们再结合用户的定位数据,比如这是一个用户的线下移动的规矩,用有机算法来算出用户去什么地方消费,在什么地方驱逐。把这些信息聚合起来可以实时看某个区域的劳动力的变化。尤其是对证券和投行的分析师,他们调研的时候工厂必须去考察,但是现在有了卫星图像可以识别这个区域,和有多少人在这儿工作,就可以识别出来这个区域的劳动力观察,就不用去现场考察了。


   这个图可以看到劳动力在第六年有明显的下滑,这个倒闭的其中一个是苏州的工厂。下面两个是反过来的,有很多人搬到这里工作,或者说这个公司融资完之后开始大规模的扩张,会发现劳动力也有大幅度提升。

通过这种方式我就可以实时来看全国的各个工业园区劳动力的变化。如果说把劳动力数量聚合起来,就可以来看基本上整个中国范围内宏观的就业趋势的变化。大家知道衡量宏观经济还有一个指标,叫失业率。失业率在中国每年政府工作公布的数字都是在4%。我们的数据其实发现,可能结果不一定是这个样子的,我们这个给出来是一个,我们发现就业园区就业的趋势其实整体来讲是有一定的下滑的。但是正如刚才拉钩网展示的数据发现,其实我们发现新兴工业园区,尤其像高科技园区,或者像生物制药园区,它的就业趋势是上升的。所以说新兴工业园区就业趋势我们认为是比较好的。


   这是我们给出了全国非常大的四千个商业中心的数据,我们刚才讲通过卫星数据可以识别商场的边界,可以通过定位数据识别到每天有多少人来这里消费。把两个聚合起来可以看到全国范围宏观的线下整体消费趋势。这里其实包括了很多像银泰或者万达很多商超聚合的结果。我们也可以看具体的某个公司的趋势来做分析的。


   刚才讲到通过卫星图像来获取一个区域边界,再通过定位的方式聚合,来去看这个区域的消费和就业。还一个方式,比如银泰商场有一个海底捞,如何看海底捞里具体的消费呢?我们有一个深度学习的算法,能够自动识别预测用户是不是到访这样一个具体地点的概率。大体就是我们会用很多种数据,像定位数据、签到等数据,然后结合贝音丝深度学习的算法来预测客户到访海底捞的概率。有了这个到访概率我们算法的准确度非常高。所以如果能预测某个客户具体到访每个地方的话,就可以看用户到某个地点的客流量的变化,这是我们预测的用户到访大中华区中国大陆的30个苹果旗舰店的客流量的变化。通过客流的变化预测苹果公司在大中华区财务营收的变化。前两次我们模型的误差都非常低,在2015年Q4预测的结果可能要上升15%,它们财报结果是14%。另外一次我们认为它2016年结果要下滑25%,它们财报是26%。这个其实从另外一个侧面证明了,通过签到的数据,WIFI定位的数据去预测一个公司的营收结果是靠谱的。


   还有预测电影院的票房收入,我们可以通过历史的时间序列建一个模型去预测。我们现在是把用户去到访电影院或者搜索电影院,或者签到电影院数量作为一个特征去预测电影票收入,我们发现这个模型准确度提升的非常高。红色的结果是我们使用了新型数据预测结果,蓝色的结果是我们只用时间序列预测,发现误差降低非常多。如果我们预测比较准,可以预测电影院营收的状况。这个B,我们预测了保利的电影院,我们预测的误差非常小。我们对新型数据预测这家连锁电影院票房结果是非常准的。但是用同样的方法预测另外一家电影院,发现曾经有一段时间预测的误差特别高,像8-9月份。我们模型预测的票房收入可能会比较少,但是它报出来的电影票房非常高。后来我们调查,因为这个电影院上映了《捉妖记》,进行了电影票房的作弊。


   我们看一下具体行业的,这个是汽车的,这个是我们用新型数据到访4S店的数据,这样可以看出来汽车销量变化。为了证明我们结果是靠谱的,我们把我们数据,蓝色的线和汽车工业协会的线做了对比,我们发现我们的趋势跟它们非常吻合的。但是我们的结果好处是,新型数据可以实时分析这个市场的变化。所以我们结果对分析市场变化是有很大的优势的。


   第二个产业,是线下餐饮行业的变化,我们把所有的到访,像麦当劳、全聚德等店的到访,我们做了中国线下餐饮消费指数。为了证明我们这个比较靠谱,我们和另外一家公司的指数对比,是银联,大家在POS机上刷卡的指数,我们发现在2016年之前整体是非常吻合的,但是我们的结果在2016年之后线下餐饮行业的趋势下滑非常严重的。后来我们调研分析我们认为我们结果更靠谱,因为尤其是像外卖行业,其实在很大程度上影响了线下很多餐饮行业的变化,很多人可能就直接叫外卖,不用去餐饮店吃了。


   还有一个应用就是对房地产投资的。大家知道这种情况在中国是非常常见的,就是中国有很多空的楼盘没有人住。很多媒体开始报道哪些地方是鬼城。但是没有一家用数据的方式帮助我们分析这个城市是否空的很厉害,到底空的多厉害?我们刚才讲过我们可以用用户手机定位的数据和手机图像的数据,我们可以通过机器学习和人工智能算法去识别,从而我们发现中国很多的空置率,这是我们给出九个空城特别多的区域。这个是鄂尔多斯,这个城市非常有意思,之前大家说鄂尔多斯是空城,这个空在什么地方呢,其实大家没有概念的。我们发现一个非常有意思的现象,是鄂尔多斯的新城区空的很厉害,就是左下角这个,跟媒体报道是比较一致的。还有右上角发现主城区的郊区空置的楼盘也很多。这个城市很有意思,就是很多由于原来逐渐衰败的城市除了新城区衰落,其实郊区的一些房子入住率也是比较低的,很重要的原因就是这个地方的就业率开始下降,很多真开始搬到其他地方去居住和工作了。但是我们也发现一个比较意思的现象,是之前媒体报道特别多的城市是郑州的新区,但是我们数据发现现在越来越多的年轻人愿意去新区工作。我们认为郑州新区不能再是传说中的空城。这是我们用数据发现中国房地产的变化。


   我们的研究也获得了很多国内外知名媒体的报道,这是一些报道我们相关研究的媒体。非常感谢大家在周末时间来到CDA现场,非常高能与大家分享之前做的研究。谢谢。


   主持人:谢谢。下面有请IBM中国开发中心,技术总监&首席架构师Alex Yang为我们分享机器学习的商业应用。有请。


   Alex Yang:很高兴今天来到CDA峰会现场,过去几年我们跟它们有很好的合作。我带来的是吴先生提到的非常细节的,分析里面跳出来到达3千米的高空,我们看一看在这些领域发生了什么,IBM为什么在这个里面进行特殊的处理?我现在是IBM研发中心的技术总监,大部分时间处理跟AI有关的项目上,试图把真实的场景,真实的商业应用的经验能凝练成对每个数据分析师都有价值的功能,逐渐放到产品里面去。


   今天我们来看一下,6月27号大家可能关注过,IBM和美国的空军AI实验室准备联合一起来做一款新的类人的类脑芯片。这个芯片很重要的是说在目前已经实现了把当时去年我们的一个叫罗斯的芯片放在一起,实现了一个聚合。整个芯片是以神经元方式来实现的。中间的图是我们给到美国的一个国家实验室的一个图,可以想像16×4放在一起,就是最近我们的一个工作。


   做这样的芯片目的是什么呢?我们知道现在大量的,刚才吴先生讲的这些所有的机损,大量的都用到了神经元网络。当然我们也知道神经网络这种计算目前给我们带来很多惊喜在很多不同的领域里,当然它也不是唯一能够达到目标的一种算法。但是因为神经网络带来很多惊喜,我们现在通过大量的具体的数据的聚合,和各个领域里的数据的分析,我们发现说很多的计算是需要大规模的计算能力,以及大规模的存储的能力。而以我们现有的机器来看,其实是一个削足适履的过程。所以IBM为什么从传统的机器过渡到类的机器,因为现有的机器是做普通的机损和数值的计算,而大量的机器学习会用到大量的神经元网络类似的,而这个用现有的技术做有很大程度上是削足适履。像用英特尔的芯片必须用GPU才能做好。所以IBM另辟蹊径开辟了类脑芯片。当然不是IBM一家,包括中科院和其他的也在这方面做探索。


   这个类脑芯片很重要的特点,就是它对能量的要求,对电池的要求非常低。大家可以想象一下,未来手机可能也是一个神经网络,我的手机可以变成随时随地识别的,见了什么,听了什么都可以看到,都可以实时识别。


   下面一个大家猜一猜这是一个什么样的机器?非常巨大,占好几个屋子。有的人可能联想到了,在几十年以前IBM的主机,以及后来的小型机,。这个就是IBM最新的量子计算机,起的名字也很Q,叫MQ。现在IBM量子计算机可以实现五个量子的输出。在这种计算下面的话,用传统的机器,可能若干年我们讲10-25次方天计算的量,目前我们做到的是五个量子的输出。对比一下,为什么五个量子输出也很重要,IBM目标做到大概是50个量子的输出。做到50个量子的话,为什么是50,而不是49?据说现有的最好的计算机合在一起都做不到49,接近49,如果能做到50,那么就是超越了所有现有的计算机了。所以在这个领域IBM也在持续的发力。



来源:CDA数据分析师峰会:跨界互联数聚未来

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据分析师行业峰会 Google地图 数据分析师行业 中国数据分析师 教育部考试中心

沙发
admin_kefu 在职认证  发表于 2017-8-11 17:07:41 |只看作者 |坛友微信交流群


   为什么要在不同领域去看,因为整个IT行业在发生深刻的变化,这个深刻变化就是过去我们花了几十年时间把信息搜集起来,处理起来,把它放到我们的业务里处理,把它放到我们生活中间,我们生活分分钟都离不开一个计算机。这个过程我们积累了大量的数据,也积累了大量数据处理的经验,也积累了大量的数据处理技术。接下来的一步正在发生的事情,我们希望是说很多信息不再需要大规模的人工的处理,最好是能够让机器自动的理解。这就是过去几年大家看到的风生水起的人工智能,认知计算的领域。IBM叫认知计算是有深厚的背景,随后会讲解。


   我们看一下在里面发生的事情,刚才提到自动识别能够自动记住你,后面发生的事情是蛮多的。比如自动识别车牌后,自动识别的车牌是否能够跟你的身份关联在一起?我们知道有些公司,包括IBM在跟一些城市合作,在交通领域进行一些大数据的构造和分析,然后通过多元的数据对不同的行走在,移动在城市轨道的道路,小区等等,凡是在城市范围发生的事情都搜集成立,建立整个城市数据巨大的网。这个数据的网有人叫做城市大脑。当城市大脑到最后的结果是它凝练出若干的智慧的东西,但是数据本身可能还不是很合理的进行分布。随着城市不断发展,未来城市生长,各种各样的数据源会在城市里采集各种各样的数据,这个数据能够实时的话,把各种信息提取出来不断的改进,这样我们就可以构造一个关于这个城市的实时的历史性的数据。根据这些历史数据我们再对这个城市任何一个角落,任何一种区域,任何一种活动进行,进行下一步的决策,那就会有非常大的帮助。


   这是通过我们大规模的神经元网络对图像识别。如果说北京市朝阳区有接近几十万的摄像头,如果每个摄像头看到的东西进行拆解,把看到的里面的固定物体是不是一个穿红衣服的人,这个人是女人还是一个小孩儿,所有的细节抓取下来,我们可以描述整个朝阳区的整个城市的走动的情况。这是在医学领域的一些变化,这个是斯坦福大学今年初在自然杂志上发表的论文。去年自然杂志第一期发的是阿尔法狗,今年第一期就是发表的这个,它说神经元网络加上一些融合,已经超过了专家,超过皮肤科专家通过图片来识别皮肤癌的比率。

这是一个日本的机器人,这个人和机器的对话已经走到了相当的程度的。尤其带英文领域走的非常高了。最近大家在微信疯传的一款科大讯飞的翻译器,说一句话就会翻译过来,说的很难听的也会翻过来。人机对话这个事情在过去的两三年发生了深刻的变化,其中一部分是神经元网络带来的巨大的收益。IBM在这里已经持续多年,包括最早的沃森已经开放出来给到各个不同领域。


   这个在医学领域,其实IBM在好多研究领域,我们知道在不同的领域所看到的数据是很不一样的,举个例子,我们对黑色素皮肤瘤的病变,这个图像需要很多模型,模型的本身就是一个一件超难的事情。我们现在探索比较多的,是说在多元的数据的条件之下,怎么样能够通过不同的角度,把同样的事情融合起来说清楚,能够提高整个预测和识别准确率。大家看到这是通过IBM预测方式比别的高0.02个百分点。还有把各种数据综合起来,刚才讲的数据是说结合的不同的模型对不同的图像。这个是结合不同的模型对不同的数据来进行综合。这个是包括把综合的一部分对整个 医疗病变诊断的决策进行支撑。


   在这里我们知道各种各样的数据领域都在发生深刻的变化,这是IBM前年收购的一家气象公司,这几乎是全球最大的数据公司之一,以前可能不太在意,所有苹果手机上的数据,大部分安卓手机上数据都是来自这家公司的。当然跟中国是跟中国的气象局合作的。它基本的思路是把有人居住的地方,无人居住的划成一公里见方的区域,来采集数据。未来在特别密集的地方采样的密度还会更高。未来大家借助手机传感器可以采样,能够叠加在上面采出更多的数据出来。这个数据影响到非常广泛领域,像在重庆做预测车速的时候,我们发现气候数据对交通有很大的影响。如何把气候的数据融合到交通的,比方GPS数据,手机数据合在一起,这就是一个非常难的问题。今天在分会场专家专门讲解在这个领域上的一些做法。


   预测本身是一个,像刚才我们看到经济上做一些预测,它可以指导我们的行动,但是光从数据得到了简单的预测,而不能得到说进一步的去指导说通过这个预测能够进一步的特别这个原因是什么。就像刚才一个例子是说,这个数据是对的,但是他作假。我能够基于这个分析出来,像我能基于数据分析出来一辆车会出事故。类似这样的事情从预测进入到预知。这个是从数据分析来说,它不再是分析本身。


   在这里可以看到下午的时候,这是一个大的话题,大家可以去看。这里把车联网数据,把交通,把事件等等所有东西融在一起可以全面了解整个城市的交通运行的情况,随后可以做出行管控等等的事情。像最近一段时间百度可以跟大家说你去查明天从A到B出发的时候,给出一个大概的预估数。这是基于历史的数据做的,早年些Google就有了。


   从这样的角度来看的话,把各种数据糅在一起,本质上我们是要把其中的Inside对人,对行为,对业务价值有用的信息提取出来。这个从理论上就是读懂,看懂,听懂。这个过程中就是数据的理解成带有业务价值的信息,把对数据的信息和业务价值关联起来,这是一个非常重要的,从IBM角度来看是如何指导各行各业来利用AI,利用机器学习来更准确的指导商业活动。这过程中推理、学习和挖掘,以及到最终的辅助决策,是我们整个IBM认知计算的一个基本的框架。如果把这个放到更大的范围来看,认知计算实际上是融合了我们通常所讲的人工智能,语境和领域的专长,和它一起,我们持续的学习和自主的学习,到最后是通过人和机器的对话进行交互,帮助真来进行预测,所以可以看到最终的目标实现从现在的有监督学习过渡到无监督的学习过渡到常态学习。整个过程中会对数据本身的需求一层一层的应用提出更高的要求。


   因此,在IBM看来在整个数据分析领域里,我们离不开四层架构:底下那层我们用了云,实际上在IBM云是既有在外面的公有云部分;也有企业内部的,像去工行有大量、海量的数据。所以换句话说,作为一个企业面对的世界不仅在外面公有云,还有很多在私有云。私有云内部的管理和公有云管理在理念上都适用于四层架构:最底线是云的方式,把有效的数据关系起来。上面的就是把数据进行监控,需要把它血缘搞清楚,需要一层一层处理出来,以便得到结果。再上面就是所谓的AI的。AI的平台我们会后会谈到,这就是我们讲的完善的机器学习平台,能够帮助到各位数据分析师能够更好的探测到inside,更好的协同,更好的使模型的生命周期得到更好的演进。上面就是我们建的模型,以这个模型为基础做的应用。这个架构对IBM来说,我们是推荐给所有领域内的朋友。


   刚才谈到AI平台,AI平台从IBM角度来看,这样一个AI平台是实现支撑认知计算的一个最根本的、最基础的一个要求。如果没有这样一个平台的话我们很难往下推进。如果大家都是散户的方式,自己想起来做什么就做什么,这样很难对企业数据规模庞大,种类繁多的数据进行综合性的融合。


   在我们平台还会给出一个认知的助手,这个助手会自动的帮着模型进行变迁的处理。在运行过程中随着模型新数据不断进来,这个系统会自动识别,如果发生偏差会用新的数据训练这个模型。这样使原来大量手工处理的事情变成自动化了,就是从机器学习过渡到一个学习的机器。


   在后面我们发现有几个趋势,这个趋势就是说数据从大回到了小。这个大和小其实是相对概念。举个例子,很多领域里的数据可以看到它涉及范围很广,搜集到人的点也挺多的,但是真正把数据拿到手上看,你会发现数据想不足够。举个例子,要做图形的计算,没有几十万张图,很难把图的特征提取出来。现在过来大量的数据很少量的,几千张,从医院看就几千张,几万张小孩儿肺结核的照片,光这点数量可能不足以训练出一个模型出来。这是一个蛮大的挑战。


   再一个,从深度学习本身逐渐移动到深度的推理。深度的推理就带着决定性东西出来了,这个就是利用深度学习获取的各种Inside再往前看有什么决策体系。从监督学习过渡到无监督学习,最终是从预测过渡到处方性的分析。本质上是利用机器学习,深度学习利用AI来达成对未来处理的一个帮助。下午一点多我们会有两个领域大家可以关注一下。以上就是我今天给大家汇报的,谢谢大家。


   主持人:谢谢。接下来有请永洪科技高级副总裁王桐先生上台为我们进行分享。他分享的题目是数据如何真正为业务创造价值。有请。


   王桐:谢谢大家。刚才发现一个意外的小惊喜,因为上一位演讲人是原来我在IBM时期的老领导,也是好长时间没见了,没想到今天又有一个见面的机会。也感谢CDA的邀请,我这块的话题实际上是,之前的话题定的是数据如何真正为业务带来价值。但是我想把这个做的更简单粗暴一些,就是价值再穿透一些,就是数据如何真正去驱动业务的增长。这个是我想跟大家分享我们在这方面的经验的一个主题。


   了解了今天一下来的听众可能有相当一部分都是数据分析师,有的可能是刚参加完CDA的培训,刚踏入分析师的领域,有的可能在这个领域已经耕耘了一些年头,已经变成了一个企业的数据分析团队的领导,也有一些来宾可能是跟这个行业相关,但是可能自己不直接从事数据分析的工作,也许他是一个企业业务部门的管理者,但是怎么如何通过数据对他的业务产生价值,实际上大家都非常的关注,从这些不同的角度我们都想分别来看一下,到底数据如何真正驱动业务增长,为什么要看这件事情?因为我无论做了多么漂亮的报表,无论我用了多么高深或者是非常令人惊叹的分析方法,如果作为分析师或者企业的数据团队,最终我的分析结果对我的企业业务增长和我管理的提升没有带来正向的促进的话,最终企业的决策层是不会认可我这个数据部门存在的必要性的,也不会认可作为一个分析师的价值真正能够去输出出来的。所以我们做的是这项工作,但是我们要做的是如何通过做数据分析的工作,为企业的业务和管理带来提升的价值。如果我们能有这方面的意识和能力,那么我们一定能够在企业当中取得非常不错的成就,一定可以随着企业不断的去发展实现个人的成长。

实际上,这件事情很难的,因为我们跟几百,甚至上千家企业都过一些过深过浅的交流,实际上这件事情真的很难,为什么难呢?为什么大数据驱动业务增长很难呢?是因为现在的用户要求实际上是非常高的。以前可能我们是在家里自己做饭比较多,后来我们去餐馆,现在餐馆都不去了,现在直接叫外卖。实际上对于这种效率提升的要求是越来越高了。以前可能我们做数据分析,从需求的提出到给它形成一个分析结果,也许这个结果是一个报表,也许一个图表,这都不重要。从需求提出到实现,以前以周或者以月为单位计算的。现在我们发现这个世界快速的变化,各个行业的竞争都非常的激烈,态势演变也是越来越快的,我们发现业务部门和我们企业的管理者实际上他的耐心是越来越小的,耐心是逐渐降低的,是希望他提出一个分析的需求,想要看一个业务上的洞察,他实际上希望马上就能够看到,甚至一天他都不愿意等,所以这件事情是非常难的事情。


   第二,这件事情其实背后技术复杂度也是巨大的。可能在一个APP上点了一个按纽,它背后就是一次事件的出发,然后响应了我的请求,也许这个订单就提交了。但是对数据平台,这件事情来讲,也许点了一下查看报告或者查看结果这个按纽,但是这个点击背后可能会发生非常多的一些事情,可能涉及到十亿,百亿级的数据量做过于复杂的计算量,再以前台匀染以何种合适的方式输出出来,还涉及到一些不同集群的结构,所以这个背后这个技术的复杂度也是非常高的。这是另外一个很难的点。


   第三个很难的点,其实数据本身也是一个链条,从数据的采集,处理,整合,清洗,加工,建模,再到后面的挖掘,分析,展现,输出,共享,其实这个链条是非常长的。每一个环节可能都需要不同的专家,不同的工具,不同的技术领域,不同的方法,才能够把这些事情给它相对比较顺畅,完美的进行实现。所以每家企业都需要一个端到端的能力覆盖。如果在这个能力当中有缺失,发现这个链条走到一步,下一步走不下去了,可能中间数据处理完了以后没有一个很好的展现,或者没有一个很好的数据的计算的引擎,前台最终用户还是看不到结果,或者得不到一个好的结果。所以端到端的能力,大数据全站的能力也是一个挑战。


   最后一个挑战,其实很多时候,很多的企业往往忽视了运营这一点,会发现我用的就是,不管是用Spark,还是用什么样的成熟的框架,好像这个框架本身并没有致命的缺陷,但是别人用起来没问题,我用起来就是很慢,或者会频繁的宕机,有的时候不是因为这个框架,或者技术,或者第三方产品本身出了什么问题,而是我们用的方法不对。曾经我们发现有一个企业,它用的是世界知名品牌大数据的平台,还是商业的版本。

按理说实际上这样的产品本身是不会有致命的一些Bug或者缺陷存在的,但是它却经常的宕机。通过我们数据化最佳实践,有几十条运营上的规范,我们诊断发现实际上它有很的使用不合理的地方。比如说明明它的数据传输节点是16线程的,但是在夜里点跑50个批量倒数的任务,让这个磁盘的IO进行巅峰式的冲击,这时候很容易造成宕机。以及它的业务用户想做自业务分析,没有很好的架构区分,就发现有的用户随便一拖,做了有上亿成员值的同值记数,并且加了多个分组,这样一下把后台的资源占满了,导致业务用户看一些固定分析结果的资源也受到了影响,这个时候就带来了业务用户的投诉,等等等等。其实有非常非常多的例子,因为使用的方法不恰当导致这件事情不理想。


   我们回顾一下,用户对效率要求越来越高,这个平台是端到端,能够完整进行覆盖的,以及我们知道到底应该分析什么,以及我们需要知道它的运营的方法论,需要知道数据运营的最佳实践。每一块其实都是我们让数据真正为业务产生增长,产生价值所带来的挑战。我们再抽象、提炼一下,这就是我们在7月上海峰会上,在业界首先提出的一个Paso模型,就是说无论企业选择自己的组件团队和技术框架来实现大数据的价值,还是选择一些第三方的商业合作伙伴和第三方的商业产品来实现数据驱动业务的增长,无论怎么去做,这四件事情是必须通盘考虑的,缺一不可,决不是说底层系统强大,这个系统自然而然产生价值,绝对不是这样的,系统其实在这里只占四分之一。所以无论分析师还是企业管理者对数据如何产生价值需要考虑哪些因素,这个方面一定要有全盘的认识。


   永洪实际上在今天来讲,因为今年是我们第六年,实际上我们还是一个小公司,但是在国内大数据赛道上,因为这个赛道也比较新,也不是几十,甚至上百年的赛道,所以在国内大数据赛道上我们是第一个开始做相关的事情,也是目前来讲我们做的相对来讲算是比较有自己的积累的。所以在这方面实际上我们多有自己的比较多的成熟的积累,比如说在Iphone方面,因为要求性能强大,可扩展,端到端全站交付,所以从自服务的数据准备到高性能的计算,到敏捷的BI,到深度分析到企业及管控倒数,有了它,我们发现IT用户做好了报告用户认为不是我想要的,然后问用户需要什么,又提不出来。这是我们最常见的场景,所以需要有专业的人,既懂数据分析方法,又要很懂企业业务的本身,这两者结合到一起,要形成数据如何在业务领域里分析的一个最佳实践,这个最佳实践就是我上面列的数据应用的生态体系,每个行业都有非常多的业务问题,有非常多的业务场景,这是不可穷举的,都可以通过数据监控它的现状,去诊断它的问题,并且去提出它的改进方向和建议,这个就是数据最大的价值。不同行业和领域里都需要一些分析的模板,和分析上的最佳实践,告诉用户该分析什么以及怎么分析,这个数据对你有用。像数据应用,每个行业里都有非常多的业务场景,每个场景都可以做数据应用。数据应用包括:对接主流业务系统的标准化接口,以及它的标准主题模型和它分析方法的锤炼,以及对前台展示上的一套模板。至少应该包括这些,那么它看起来才会相对的比较容易。这样的话我们可以在一个相对比较高的基础之上再跟业务部门探讨,你需要在这块做一些修改,他觉得这块不太需要,他需要再增加一个指标,然后来去看。这就是数据应用这块。


   服务这块,其实也是同样非常重要的,这个平台,无论是企业自己的分析师团队或者企业自己大数据团队服务,还是第三方给它们提供服务,精细化的本地服务,这个是必须具备的,从数据调研书,到维护,再到内部培训,知识传递,实际上精细化本地服务也是为了让数据这件事情能做好的保驾护航的非常重要的一点。在最右侧就是目前业界应该只有我们真正去把它梳理出来的数据化运营的最佳实践,我们会不断做健康的检查,帮助客户把架构做到一个比较优化的程度,把运营规范,推广策略都要做好。其实我的大数据平台内部,我的维护者也是他的一个营销者,我要做好内部营销,我要让企业内部各个业务部门都去看我分析的结果,我分析的内容都要给他们提供服务,而不是只给十个部门当中的某一个部门提供分析的服务的支撑服务。推广策略实际上也是很重要的一点,最后来给出一些提升的建议。所以PASO整个模型缺一不可,然后我们必须把它们通盘在一起考虑,而不只是把目光聚焦在分析方法和技术上,和我底层用什么样的框架上,这个实际上才能最重要的一点,以及分析方法和我的业务相结合,否则算法再怎么漂亮,其实这个事情跟价值不一定有正相关的关系。


   今天的重点因为在A方面时间有限,所以PS和O就不做为今天的重点,也是跟分析师最相关的,就是数据应用这块。从整体来讲,因为每个行业的不同业务领域,它的分析场景一定是千差万别的,但是我们尽量的提炼出来一些共性来讲的话,实际上一个企业它的数据分析体系是有一个整体的框架的,只不过在不同的企业前台、后台、中台表现不一样而已。对制造业来讲,前台市场销售和服务,客服,呼叫中心,后台是人才,物资,IT这一他。如果说是互联网行业或者金融行业,可能对于互联网行业来讲前台就是市场和BD,中台是产品的设计和运营,后台还是人力财务信息化管理,研发在中台。对金融来讲前台也是偏向于客户经理,对公的业务,中台是衍生品设计,后台还是人财物。我们发现后台其实相对是比较通用的,但是前台和中台在不同的行业当中实际上是有很大的差异的,但是尽量把它提炼一下会发现,其实有这么多的分析场景都可以通过数据产生价值,决不只是说我分析一下我的留存率,转化率这么简单的问题。从人力资源管理角度来讲,到底人员的绩效的匹配程度是怎么样的,整个企业的组织里人员单产是逐渐上升还是逐渐下降的。上升是哪些局部上升,下降是哪些局部下降?比如员工的离职是去了哪里,哪些员工经常离职,离职后带来的损失是什么,这些全部通过数据才能产生洞察。对于财务来讲,可能资金都可以进行很好的分析。还有五大类风险,像能源,制造会涉及到安全环保,包括我有自己的数据中心,我怎么做好节能减排,怎么做好安全生产,怎么做好事故预防。信息化这块可能主要是在成本效率和运营和服务这方面。资源这又是另外一个比较大的话题,供应链的话是一个大的供应链,不是一个小的、狭义的采购的供应链,所以从库存,材料平衡到销售的分析,采购的分析,这都有很多的模型需要去攻克。生产,投资这个就不多说了。所以对于一个通用型的企业来讲,它的前台、中台、后台一拉开,实际上就有非常多的领域可以做出我们的业务场景,让数据发挥价值。


   对于一个企业的决策层,董事长、CEO、COO大部分人来讲,他可能不会看这么细的东西,从企业的决策层来讲他需要真真正正意义上的管理驾驶舱。他分析的视角和业务领域分析的视角很不一样,所以决策层本身就足以支撑比较复杂的数据应用。从决策层的角度来讲,他一定关心的几个事情:战略发展推进,总体的绩效和重大投资的决策。战略发展推进,如果这个企业有足够大的体量,宏观经济分析和整个市场分析,如果是集团性的企业要做好业务结构,业务版块的分析,互相之间的协同怎么去联动,包括资源控制,区域布局等等。这些都是要看的指标、体系和分析点。所以企业的决策层管理驾驶舱也有这样比较丰富的分析框架,也是我们大老板喜欢看的东西。


   后面我们挑几个重点行业的重点领域来举一些例子,来讲一个数据应用它到底应该做成什么样,以及数据应用对业务能产生什么样的价值。各个行业,各个分析场景都能产生非常多的价值,但是提炼出来,抽象出来,总结来讲它一定要对它的业务管理带来正向促,业务部门和公司的决策层才会认可我们做数据分析这件事情的投入是值得的,才会在我们身上追加投入,从而产生更大经济和效益上的作用。


   首先看一下金融行业里的银行行业。银行行业实际上有至少十个以上的主题可以去做很多的文章,包括像客户端,像决策支持,运营,产品营销,监管,风险,绩效,财税,等等。有非常多的主题实际上可以做一些文章,我们挑两个最重要的:一个是审计。审计以前可能有专家经验去做的,现在我们也要在大数据时代让它变成一个可量化的,一个标准化的作业模式来去向风险评估转变。以前我们的审计受限于人力的有限,可能我们做的是单业务风险,现在跨业务,业务板块之间联动的关联风险有了更高的要求。审计从它展开可以展开几百个不同的指标,像总体和专项去看一些一级分类指标。一级分类指标展开有二级、三级分类指标。最终不同角色的人看到的是不同指标,对一个行长来讲看的指标是五级菜单当中的五百个指标,经过一个一个权重加上来的风险分数,就是这个分数是80分还是20分,一个一个看下去。这是我们在国内全国的大型银行做出来的一些例子。做这个例子的时候要去解释一下,就像刚才说的,前台可能我们看起来只是一些图表和报表而已,但是展示什么内容比我展示出什么样式重要的多,以及展示的内容绝对不是说我把一些指标堆砌在页面上有结束了,而是指标和指标之间的层级关系,它的相关性是怎么样的。相关的指标放在一个样板上,不同层级的指标放在不同层级上,它们之间是怎么联动的,这个路径按照业务逻辑思维做,这样这就是有生命力,有业务逻辑,符合业务人员交互、思考,符合他思维方式的这样一个产出。这样的话业务部门领导会觉得它真的对我的业务有帮助。


   零售制造业又是一个很广阔的业务群体,包括很多今天互联网企业,归根结底是做制造业的一些升级。它里面实际上包括了客户的数据,产品的渠道,上下游,库存等等不同的数据。所以针对于不同的数据都有可分析的点。客户数据也可以做精准营销,如果我们多个行业都有接触的话,其实分析方法真的是大到至简可以抽象提炼出来。对于产品数据,很多时候一个制造业或者一个零售业的设计人员,实际上以前是通过自己的想象,觉得我要给年轻人设计哪些新的电视,我应该怎么设计,一定喜欢大红色,喜欢4K这种新的技术,会发现最后死的很惨。业界尽管是宝洁新品存活率也不是很高的,更不用说目前绝大多数企业现状了。像很多知名的制造企业也是我们的客户,它会通过产品数据分析来去做竞品数据分析比较,更重要的是新品设计的参考,通过数据跟刚才的用户画像有点像,通过数据先来分析目标用户的需求是什么,然后再做自己新品设计,这样的话成功率会比以前有几倍的提升。可能经过数据分析会发现,年轻女性喜欢的电视一定不是4K的。这是我们发现的一个真实例子,因为对新技术女性并不是很感冒,她可能还是喜欢3K,智能这种时髦,炫酷的,而不是最新的技术。喜欢白色的。如果说通过数据能得到这么精准的支撑的话,后面事情我就只需要把工业设计这个事情做好就可以了,然后我把它推向市场出样的时候,客户看到样品会发现他做消费决策中间的每个硬性条件都是打勾的,比如颜色是打勾的,剩下的只需要看感觉,这个样子喜不喜欢就可以了。如果我们做到这么精准,实际上对企业方方面面,对新品设计多带来质的飞跃和突破。


   门店也是一样的,很多企业在国内都有成百上千家的门店,门店和门店之间要做一些比较,同样的一个半径范围之内有的门店生意好有的不好,为什么?是人员的问题,装修大小的问题吗,这些都不是,这些都要通过数据得到答案。但是总是半径范围之内有的门店能做好,就意味着其他门店有问题,一定可以往好的标杆去靠。


   渠道,我上游的供应商和下游的渠道商这个之间大家怎么把分工协作,把计划这件事情做好,这个是非常重要的。否则的话他提的订单下个月又取消了,这个时候我的生产是浪费了。


   库存和缺货,库存问题,从数据分析,我们就是通过对比,找原因,分析,至于分析方法都是帮助做对比和细分。核心时间就是对比和细分。我要不断的细分,有的库存是和产品铺不匹配,有的库存可能因为生产计划的问题导致的。库存问题细化下来有四个不同的分类,每个类型其实我们去解决的问题,绝对不是说库存管理员的问题,而是市场的问题,计划的问题,生产的问题和设计的问题,一定都是这些问题,而绝对不是说库存本身管理的问题。


   如果说很多企业不是面向C端的,现在ToB很火,有些企业,像我们是做B2B的,这里ToB和ToC销售又有很大的不同。我们会分析,包括我们自己也在用自己的数据应用里看我们的销售情况,从商机到客户到产品。比如我给自己设计的首页,可能我会更加关注这个季度完成多少,还差多少,今天离这个季度结束还有多少天,我完成的百分比是怎么样的。如果今天是9月1号,这个季度只剩一个月了,但是这个季度完成任务只有10%,这个完成率就有很大问题,所以要把时间拉出来做一个比较。这个比较我要去看,先在维度做细分,看哪个团队完成的不好,然后再在指标上做细分,是看线索不够,还是转化率不够,还是客单价不够,总之是能够找到原因的,不可能他都好,最后业绩不好,这是不可能的。我找出来之后集中起来,来因材施教的给予一些能力的提升,或者对岗位不匹配的做一些组织结构的调整。但总之先通过数据做判断,然后通过细分来发现数据上的洞察,最终目的是能够发现真实的问题来采取行动,最后为业务和管理带来提升,反复强调业务管理和提升才是我的重点。


   销售团队业绩和销售人员业绩的画像,包括客户的信用评价,我们也会给我们客户做信用评价,谁的付款好,谁的付款情况不好,以后还要不要这个客户,其实我们也需要在自己的内部有一些评价,等等等等。还有保证我们渠道,各个部门之间的一些对比。它的承诺跟它的时间完成率的差异,整个跟财务之间的排名。包括我有多款产品,不同产品卖的怎么样,有些销售只卖一个产品,这也有问题。后面一个就是财务分析的框架,时间的原因这个就不再多说了。


   今天30分钟的时间尽可能的展示一些比较通用的,因为毕竟咱们都是来自于不同行业,不同领域的专家们,希望在各个行业里都举一些例子,如果能给大家带来一点点的启发,这对我们来讲就是莫大的荣幸了。总结来讲希望大家记住的点:我们做数据的核心目的不是分析多么的漂亮,而是它最企业的业务和关系能够带来提升,这是数据唯一的价值和评价标准,除此之外别无其他。第二,做好数据的价值呈现,绝对不是说我有一个好的技术分析方法和系统就完事了,平台,应用,服务,运营,PASO缺一不可,无论自己做还是选别人帮你做都要考虑这个东西,这个跟我们没有关系,这个跟你有关系,你一定要做全盘的考虑。第三,如果要想做好一个数据应用,实际上要把指标体系,业务场景和分析模型以及接口,和前台上展示的模板,这些都要通盘考虑,才能让数据应用做的足够理想。至少这三件事情是希望通过今天我这个话题的分享能够让大家去有概念,能够让大家记住,这个就是我们各个行业合作过的客户,这个就不多说了。


   我们其实也是数据分析师,跟今天大会的主旨是吻合、匹配的,所以这个是二维码,大家可以扫描一下,来申请我们的产品试用,可以让大家有机会体验。所以也非常欢迎在会后到我们展台多多交流,互相学习,互相借鉴,通过大家的努力把数据在中国发扬光大。谢谢大家。


   主持人:谢谢。下面有请华炬科技创始人谭海华先生为我们带来大数据共享时代的行业变局主题的分享。

谭海华:非常高兴今天又能够CDA年度的大会跟大家见面。这里我真的非常感谢赵老师,我记得在去年九月份,我分享的是数据质量和数据共享。这一年下来之后我们看到很多事情在往前推进,今天我跟大家分享的主题,是大数据的产业变局。


   首先,数据是谁的?我想在过去的一年里发生了很多事情。我想大家一点都不陌生,这个是我在我们的新闻里随便摘取的,这里大家可以看到在现在的大数据的生态圈里是怎么样的。我用一个互联网的巨头在攻城略地。在这里看到BAT三个势力范围,这个在所有的公开媒体都可以看得到,这是我们现在看到的一个发展。可以说这是最近一年,正好是我在去年九月份讲数据共享的时候,在这一年发生的情况。这里大家看到最新的新闻,这个新闻是说我们几乎所有的大型的国有的银行都在跟互联网巨头牵手。牵手大家知道,大家关注大数据行业发展的时候,大家关注到在支付宝出来的时候,在蚂蚁金服出来的时候,大家整个理论的态势是什么样子的,但是到现在态势是什么样子的?基本上几乎所有的国有银行都跟互联网巨头在合作。这个是一个大家可以看到的一个事实。


   这个也是在过去大家看到发生的新闻,这里其中最明显的一件事情,这个是大家都在问的一个问题,现在数据是否形成垄断了?这里的新闻我们看到竞争非常白热化的报道。


   这里我们可以分析一下,究竟互联网巨头是怎么样通过,这个数据巨头怎么样通过数据来扩张它的势力范围的?当然这里因为我们是数据分析师大会,这里可能有偏技术的语言,这里大家可以看到一些在整个,我只是举个例子,在阿里的版图它整个扩张的过程。这里首先是流量。我想我们过去互联网发展的过程里,首先是流量会站出来。流量为王,我想在过往的至少有若干年里这个是大家都非常关注的。尤其到目前也还有,我们讲的流量为王。但是我们看到在数据的应用整体的发展里,我们会看到由深度数据挖掘所产生的权力的掌控,比如我们提到数据营销的1.0版本,包括我们更清楚的信用跟风控,就是说这个也是蚂蚁金服出来,包括我们现在互联网或者数据巨头在整个行业或者数据掌握的情况。还有我们提到数据精准营销的2.0,再往下可能还有3.0,这个都是数据的一个发展。这个发展赋予了我们拥有数据的企业更大的竞争优势。


   这里我们还看到了在过去发生的,就是硝烟再起,最典型的就是阿里跟顺丰的竞争,这个我想已经是摆在桌上,大家看到的情况。


   这里我们一起分析一下,当然这只是个人的见解。我们看一下数据权力的转移是怎么样去做的,大家再从头回顾一下这个数据为什么变成石油,变成了现在最有掌控力的一个资源,我们看一下数据变迁的过程。这里我是一个简单的概括,就是怎么看到数据权力的变迁?最早大家谈数据,什么叫数据?我想在座的各位可能也有一些行业的专家,包括金融、保险,也有一些专门做IT的同行,我们开始讲数据,什么叫数据,数据可以拿来做什么?大家为什么觉得数据有价值?我们在谈1.0的时候,大家叫数据凭证,在各行各业大家为什么要存留数据?我也跟很多保险公司的同行在交流,我们开始拿到数据是干吗,是凭证,是保单,这个是有法律依据的,这个是要做审计用的,这个是要能证明我们业务的过程,这个是我们讲的早期为什么讲到数据的本质。大家看到很多,比如说加实时,我们追求的几件事情,在早期1.0的时候是要看到这个数据的事实性,完整性。我们用数据就是要保留事实,为了企业的经营活动需要保留一个事实。这是我们讲数据在1.0的时候的做法。但是在数据整个发生里已经开始有新的概念,这里会提出流量经济的问题了,包括粉丝经济。流量经济和粉丝经济,我想大家在从事互联网的时候看到的一个新的力量在成长。这里我们看到现在整个数据的流量,它的存储流量的导流,包括我们讲的数据颗粒物的分解,包括它的结构化的处理。这里有一个过程,这个过程我们现在在看到的比较多的是往前走的,就是用户画像。用户画像我相信今天我们在前面的几位嘉宾都有不同的角度来探讨,我们在分析的时候这些数据的意义在哪里,其实我们要获得的是更多的这些信息点能够让我们的画像更加丰富,这个是我讲的在数据的进一步发展的过程里。在第三个阶段,我们再往前走可能是人工智能,人工智能我想今天吴先生给了我们一个非常深刻的例子,就是说我们在下面的时候,人工智能会接入数据的应用,可能会让数据有更大的力量。所以在这里我今天也非常受感染,就是说有一帮年轻人在这里,我看了上面有过往的分析,大概是20几岁到30几岁的年轻人。


   这里我想非常关注的一点,是说在3.0包括人工智能我们去做,我们会把这个数据的使用,以前是由下而上的做法,现在我觉得是由上而下的做法。我刚才提到这个事情,我想起一个很形象的,我想我们数据分析师可能未来就是一个大的艺术,它是一个艺术类的工作。为什么?它是从知道了我们要的目标,才往下去知道我们要搜集什么数据。这个是为在IT,包括我们做数据处理的时候,这个是有一个大的变化。为什么呢?因为我是有IT从业历史的,我们知道以前做BI的时候,包括我们拿给我们决策者看这个报告的话,要求完整的话没有数据是不行的,我们要做一个BI系统没有一个六个月的实施是不行的。在现在来讲这是不可接受的事情。在前面嘉宾的分享里我们已经看到了,我们在用实时的手段来获取数据,而不是靠我们记录下来的数据库的数据来进行我们更大的数据分析。未来数据分析师会扮演很大的作用,因为他会从用户角度出发来推导出来我们未来需要什么数据,包括这个数据从哪儿来,包括它的频率是怎么样的,这个未来都会由数据分析师的角色来推导出来。这是我讲的数据权力的转移。这里可以解释为什么现在看到数据竞争的态势是什么样的。


   我举个例子,大家会看到在任何一个相关的企业里,四类的数据我相信都是大家关心的,在刚才我们永洪科技也分析了,包括我们做的,我们看一下我们的数据有什么价值,我们的数据价值怎么产生的,包括数据价值的产生是怎么演变的?这是一个最典型的几类的企业,比如说我是一个保险经纪公司,我是一个医养服务的公司,或者我是一个互联网培训的公司,或者我是一个电商公司,我相信对它们来讲这几类的数据对它们都是有,包括刚才提到的怎么分析的数据。这里我们看它的ABCD,在每个企业可能看这个数据都在它的内在的闭环来进行分析处理,在1.0的时候只需要知道这个数据有这个事实就好了,这是它所关心的。但是到2.0的时候知道,它是怎么样去看的这个画像,这里有可能我们在进行跨界的数据的时候,这种画像,包括我们的分析,包括我们所产生的角度,都会产生一些在我们传统讲的数据分析是想象不到的这种价值。这里也是说我们有很多企业在跟我们交流的时候讲,说我的数据有什么用,我的数据将来怎么发展?我想说在刚开始的时候数据只是为了记录,接下来是为了分析,再接下来是做人工智能,也会做预测。在接下来我们看,我们看这四个维度,刚才讲的是单维度分析,但是在这里ABCD框里会产生指数级的分析要求,这个指数级的可能的关联的问题的出现,前面吴先生的分析很好的诠释了这一点。大家不知道有没有听到一个例子,就是怎么知道储油量的变化,包括知道企业收入的营收的变化,这些分析方法跟我们传统的方法是有变革性的不同,为什么?因为它有不同的关联点导致我们事实的发生。这里就是说我们数据分析师会是非常好的导演,包括我们的艺术家,他会知道我要达到这个目标,我的数据来源在哪里。这几个片子是想更好的说明数字权力的转移是怎么做的。


   这张图是我准备这张PPT的时候我想到的几个概念,大家都有这样的体验,不管用华为的手机或者苹果手机,我相信你的指纹录入这个步骤是省不掉的。这里只能告诉大家,就是说数据与真相的关系。其实我们数据分析师更多的,在探究在数据里这个世界里的真相,把这个真相怎么样能够非常有说服力的告诉我们的商业行为,包括我们的企业。所以数据与真相的关系,我们讲对的东西并不代表一定都能反映真相。为什么?因为你没有足够的信息。你的画像都不够,你可能披露的真相未必是真实,而不是所有的全部。前面一个嘉宾的演讲就提到了这个问题,就是说在整个分析的过程里,这个事实的信息的完整性的影响。对的数据不代表是真相。第二个,错的数据不一定不能反映真相。这点作为我们数据分析师的角度,未来所面临的工作有一点是非常非常的重要的,就是你要考究你的数据它是否是按照它的真实性来表达。我知道我们在做数据分析的很多是在算法,在数字的关联性做剖析,但是大家要知道这是需要数据支撑的,这里我想有一个蛮好的例子,我讲一下沃森的发展。大家可能也看到这个报道了,当然这跟人工智能来讲是有一定的,不管对行业还是对业界一定的打击。大家看到沃森在跟癌症中心合作里,并不是说太顺利。大家也看到这个情况。大家要深刻分析就会知道,去看这个报道的时候发现IBM花了非常多的在做病例数据的培养,对人工智能算法进行培养,来去确保能够面对医疗方面的问题。这个数据是很重要的,假如说这个数据不准确它没有办法让我们数据分析师所做的算法能得到完美的展现。所以在大时代的时候,正确的、高质量的数据可以让你无限接近真相。


   我们就回答这个问题了,就是在行业变局里我们说这个数据谁说了算?当然今天我分享的还是数据共享的问题,就有一个绕不过去的问题,就是我的数据谁说的算?不管在法律层面还是癌症应用层面上,这个问题都是大家比较关心的。我想在我们企业的数据里,我们说它既是金山,又是冰山。金山是说你们有非常多的可挖掘的潜力,就把你们企业的数据怎么挖掘起来,通过刚才我讲的这个片子,把大家的数据关联性所产生的价值。还有一个是冰山,这个冰山是说你其实有很多隐藏的价值,其实大家是没有看到的。这个是我想的自己企业数据是什么样的。尤其中小企业的数据,这些困惑的问题,我相信是很多企业家都会碰到的。首先是数据维度有限,我刚才举的例子是四个维度了,但是我们想要怎么获得更好的维度?数据维度是我们面临很多数据应用的时候。第二个是数据孤岛。数据孤岛的问题是没办法互联的。没办法互联我想中小企业跟我们的大型数据巨头很多时候在这个问题是有非常明显的劣势的。为什么呢?在我的自成体系里,比如在BAT自成体系里,它的数据能够很好的串联。数据质量不足和低下这是它的一个主要的情况。行业的问题我提到了,还有一个我们在谈到利益分享的时候,在谈到数据共享的时候有几个问题可能是直接影响到我们数据共享这个行业发展的绕不过去的。首先在这个行业怎么建立合理的利益分配制度。还有一个,法律层面上的约束。还有一个就是数据资产的定价。还有前面讲的数据孤岛的问题。这是我们在解决数据共享会遇到的几个问题。


   回到我们讲的我的数据我说的算。怎么样才能做到我的数据我说的算,这是我们在说共的时候,我觉得要解决三个问题:第一,在技术上能够做到对接和共享。第二个,在合理的数据变现的利益保护。第三,拥有权跟使用权的分离。这个是我们要推动数据共享的时候,这三个维度是我们需要去解决的。具体的情况我就不讲了,因为时间的关系。反正在这里华炬科技,包括我们在提倡的数据共享我们希望有三个技术来解决这个问题。第一个问题,我们不直接对数据源进行交易。这是我们要解决原数据共享的一个瓶颈问题。第二个,我们标签化数据,对外开放标签来搭建共享的桥梁。大家在前面的分析知道,大家在获取信息的时候,已经有很多层的维度,通过标签划好了,通过上一结果的输出,可以让企业获得一些数据共享的价值出来的。这个并不需要跟数据源直接交易。这有几个元素是我们提到数据共享需要考虑的:一个,符合国家的法律。数据质量的验证体系,接口规范等等的。


   在这里刚才提到我们希望能够通过技术的层面,包括我们现在整个发展的业态,能够希望产生一个数据共享的新的道路。这里包括怎么样去打破这个行业的垄断,怎么样快速让我们中小企业拥有小的数据源的企业大家能够互通互享的产业格局,还有就是说在利益方面能够让,我哪怕是只有小型数据源的企业能通过数据挖掘能获得利益,这个在它的利益分配上是可以获得这个支撑的。最后,这个数据共享是符合现在的我们整个共享经济的发展的。这个叫做碎片资源的有效利用。


   最后,我想在今天我会讲一下我们在做的数享汇大数据共享联盟。这方面我也感谢各位在不同行业的老总们交流,这个尤其跟我们CDA的赵老师,我们在沟通整个产业发展的时候,其实有一点我们大家是有非常大的共识的,这个共识就是说我们怎么样去创造一个机制,能够推动整个大数据共享产业发展。在这一年我们也做了不少工作,在今天的会场上我们也会有一个数享汇的发布,这个发布我们希望通过数享会的成立,能够推动整个大数据共享产业的发展。数享汇希望什么样的机制呢?能通过我们加入到数享汇的企业,能在一个技术的平台里能够做到,包括我们数据精准匹配,记录的质量的有效鉴定,包括我们的精准营销广告投放,来形成一种互惠互利,能够得到它的利益的一些共享。


   这里有一些我们在做的产品,这些产品包括我们的数据源怎么管理,包括我们的质量怎么去认定它的指标,包括未来我们在共享平台里价值的认定,等等,这个是我们现在已经在做的探索,这是我们的一个Demo,会很快推出来这么一个平台。这里包括我们一些,比如说通过广告的投放,利益的分成的计算。包括通过这个平台我们进行自主的数据的应用,包括它的精准的广告投放。


   我想介绍一下我们在共享的联盟里我们非常荣幸请到了一些创始会员,这是在大家有共同的认知的情况下,大家来去共创共享联盟。这里首先包括我们跟CDA的战略合作,这个是我们的创始发起人,还有一个是我们的小冰,小冰合伙人是我们在阿里体系下面在做整个运营投放,包括它的整个广告投放经营的非常有经验的一个企业。还有黄球艺城,这个主要是在医养行业通过互联网数据精准营销能够异军突起的互联网的医养产品销售的企业。还有我们的安心保险,安心保险是中国拥有四张互联网牌照的互联网公司,我们也期待一起携手,怎么样通过互联网的数据精准营销能够推动整个互联网保险的销售。还有全球化保险,这个是有全牌照保险的经纪销售公司,我们也是希望通过这个联盟大家一起怎么样把销售的业务推上去。还有包括数据中心,包括光波企业,还有做呼叫中心的,这是我们创始会员能够共同把我们的共享联盟,包括数享汇能够发扬光大,也希望在座的假如说有愿意加入共享联盟的企业,也可以在我们的展位里填表,也可以通过这个二维码加入共享联盟的平台。我们是一个开放的,这个平台也欢迎各行各业的有志于把数据共享能够推动的企业来加盟。


   最后一点,我简单介绍一下华炬科技。华炬科技是一家专门从事数据质量管理的企业。因为数据质量管理,这个在大数据领域里是一个非常细的新兴市场,可以说我们是数据分析师的非常有效的一个助手,能够来协助数据分析师怎么样把我们的数据会把我们的算法,把我们的分析做的更加完美。这个是华炬科技的一个使命。我的演讲到这里,谢谢各位。


   主持人:谢谢。让我们期待着数享汇数据共享模式能够为各大企业助力大数据时代。接下来的时间可以说是万众瞩目,在此我荣幸向大家发布:数享汇启动发布仪式现在开始!




使用道具

藤椅
zishengzheqiang 发表于 2017-8-31 14:06:34 |只看作者 |坛友微信交流群

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-23 23:22