楼主: admin_kefu
2498 4

[经济类] 2017年中国数据分析师行业峰会:互联网大数据_分会场(之三) [推广有奖]

客服管理员

泰斗

35%

还不是VIP/贵宾

-

TA的文库  其他...

管理文库

威望
3
论坛币
29361653 个
通用积分
12947.8867
学术水平
545 点
热心指数
662 点
信用等级
522 点
经验
111456 点
帖子
3202
精华
13
在线时间
32828 小时
注册时间
2010-6-2
最后登录
2024-4-23

初级信用勋章 中级信用勋章 初级热心勋章 初级学术勋章 中级学术勋章 中级热心勋章

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

2017年中国数据分析师行业峰会:互联网大数据_分会场(之三)


第四届中国数据分析师行业峰会

主题:互联网大数据

时间:2017年7月29日(上午)

地点:中国大饭店



   内容:

   巴川:大家好,非常感谢各位来到CDA中国数据分析师行业峰会的会场,我是主持人巴川,这是兼职,正职是演讲嘉宾。感谢CDA邀请我来演讲,是老熟人了,今天参加第四届中国数据分析师行业峰会,也是第一次客串主持,紧张的地方大家多多海涵。


   首先得感谢各位来到会场给捧场,第二要感谢几位演讲嘉宾,第三要感谢有道云笔记给我们提供的速记服务。我们闲话少叙,首先有请第一位演讲嘉宾,名字非常响亮的公司名字,吆喝科技CEO王晔,有请。


王晔:大家好,我是吆喝科技的王晔,我是第一个,可以给大家暖场,所以话题比较轻松,简单一点,不需要动太多的脑子。


   其实数据分析师,或者数据分析师的同行、朋友,来到我们的会场,无论是到大会还是到互联网大数据的分会,或者其他的会场,来的目的毫无疑问是交朋友,认识同行,还有学习知识,看大家从业的经验、技术、概念等等,学到一些新知识。还有最重要的一点就是为了我们自身,我们来可能是希望发现一些业务上的机会,发现一些工作上的机会等等。


QV_8G)1P7%ZNXZFPVF38B7D.png


   我今天跟大家说的是想告诉大家,我们数据分析这个工作,或者互联网大数据这个工作,到底怎么能帮助到我们公司的业务,帮助到我们业务的优化以及科学决策。大数据怎么能在老板那里产生足够大的影响,从而你才有升值加薪,获得更大影响力的可能,我们会比较轻松的讲一下。


   我是科班出身的人,在清华念的本科、硕士,在耶鲁计算机系念的博士,我的研究方向跟系统设计和优化有关,牵扯到很多数据与大数据的东西,在谷歌工作过,一直在跟互联网相关的东西打交道。


   为了展开话题,先说一个场景,大家就可以感受到数据的魅力了。我们互联网的领导或者决策者普遍还是具备一些数据的概念的,但是传统行业一些领导就不具备这样的概念。


   这是奥巴马2008年竞选时候遇到的有意思的问题,我用这个问题来暖一下场。奥巴马的设计团队给他设计了在网络上招募捐款或者招募投票者,支持他的人的营销活动。这个营销活动设计有几个方案,一个照片是奥巴马在一群人的支持下说“加入进来”,另外一个是“改变,我们相信”,是奥巴马和他的家人。另外一个文案没变,但是是奥巴马个人投降后面有很多支持者,后面是比较现代的视频,用户可以点开看奥巴马告诉你的一些理念。


   它有一个按钮的选择,可以让用户加入或者给奥巴马捐款,支持他。有“现在加入”“现在注册”“了解更多”。有谁愿意判断一下吗?如果你现在要给奥巴马提一个建议,你会让他选择哪个设计按钮的组合呢?当时他的竞选团队里有一个人是来自于数据公司的,以前在谷歌工作,跟我是同事。他给奥巴马的建议很简单,这几个选择都可以上线试试看。


   有很多人会提建议,如果你是一个视频,转化率会比较高,用户比较容易注册。彩色图片比黑白图片效果好,应该用彩色图片。按钮如果带上“Now”,给用户增加紧迫感可能会比较好。这都是大家的概念、经验和理念,但是让老板决策,或者让团队决策的时候,不能只根据经验和理念。


   相信在座的都是做数据的,所以只信数据。我们对比几个不同的方案和不同按钮的组合,全部在线上跑一跑。每个组合我都让100万人看到,看一下他们的点击率和注册转化率。有一个很有意思的结果,黑白的图片加上“了解更多”最弱口号的按钮,注册率最高,提升了76%。在很多细节上,奥巴马的竞选团队都用了这样的方法,就是我大胆尝试,去看一看数据,最后选择数据最好的。这个提升了76%,那里提升30%,另外一个地方又高了10%,奥巴马团队一共筹措了9亿美元的捐款,其中有3、5个亿都是通过做这样的尝试,通过数据带来的,投入产出比非常高。


   实验结果打破了大家原来的概念,首先未必视频比图片好,第二未必彩色比黑白好,第三未必加上“Now”更好。很多人想了解奥巴马更多的政策,而不是你让我加入我就加入,我凭什么加入你?所以“了解更多”更容易转化,也可能这是数据反推过来的判断。另外对投资者来说,更重要的他们更看中家庭。更关注你的领导人有什么样的政策,这些都是猜测,但是有数据就可以佐证相关的观点。


   我们想说的就是,我们做决策的时候,一不要搞什么投票,大家讨论一番就下一个结论。你有想法就全部都上,更不能领导拍脑袋,领导拍脑袋其实是对的,如果你领导愿意拍这个脑袋的话,因为他要担这个责任。你隐隐的发现他要把责任推给你,你就要说不行,就要用科学的决策,用A/B测试。


   早期西方医学也跟中国传统差不多的,很多医生说直肠是生命最重要的东西,医生也不愿意把自己的医疗记录分享出来做数据分析,这种事情都发生过,因为医生都希望有一个好的面子,所以不希望看到我还有失败的案例。但是19世纪的时候,像哈佛大学他们慢慢推出了这样的思想,慢慢被大家接受,就是通过临床的对照组实验。现在不光是西医,中医也一样,必须经过临床测试才能得到相关批准,商业化卖药。


   A/B测试相当于是最高水准数据的方法,可以帮我们判断一个决策是对还是错。简单来说,你找出来相似的患者,给其中一部分对照组安慰剂,给一部分实验组真的药。所有实验者都觉得自己得到的是药,这是单盲,参与完了之后再拿他健康情况做统计学对比。如果统计学能够证明新药比安慰剂在统计上显著有效的话,它才能自证清白,说我这药确实有用。


   它包含了很多方面,一个是实验的设计,做互联网产品或者互联网运营的时候,想到了定价策略、促销方案。首先你要去设计,怎么通过实验的方法得到科学、可信,可以向老板证明的实验方案。最简单的把用户群分成3组,第1组给他1号促销,第2组是2号,第3组是3号。我们的客户摩拜单车,他就不能选一个组是下雨天的用户,一个组是晴天的用户,这样就没有说服力。要不就都下雨,要不就都晴天,然后统计得出它的转化率,或者你想要的数据,得出一个结论,到底哪个促销方案更好,大致是这样一种思路。


   它需要科学的数据,采样样本的分流,得出一些统计学的结论。相信大家懂数据,这些不难了解,也有一些其他可以学的课程。


   现实之中像这样一种方法被用在了哪些日常工作之中呢?一个是可以解决互联网行业常见的bug问题。传统产品做个ofice要写两年,它没有bug。但是互联网产品每个星期、每个月都会更新,经常会有问题。这时候你就可以让一小部分用户先用新版,对其他用老版推动发布的方法来做,有bug你可以及时关停。


   另外一种是专门针对业务的,你去优化用户的获取,你买流量、打广告,用户的激活,注册页面等等的转化率,可以通过对比实验找到更好的方案让它优化。


   留存是通过产品的改进,怎么让用户在付费环节提高转化率,也是通过A/B测试来优化改进的。


   有了这样一套方法,无论是在获客上还是打市场都会更加有效,另外你还可能发现新的增长方式。我们也有一个客户发现,如果打出广告,每天早上你的女朋友或者男朋友把你叫醒,这个文案转化率特别高。所以他就在自己的微博用上了这句话,就提高了转化率,提高了用户拉新。


   更重要的是你不断用A/B测试,是用用户的数据做反馈,好处是你一直在提升用户的体验,以用户的角度出发,而不是老板的角度。持续优化,可以用更好的方案替代老方案,不断的改进、提升,不会一成不变,更重要的是可以通过这种方法证明自己的价值。


   我是做理论的,所以我用了很大的方程式来解释这个问题。我们做业务,无论是做产品还是做运营,做数据的人给它的支持,或者配合它的时候,都是在帮它解优化方程式。优化目标一般是最大化的转化率,比如说电商,肯定说是访客到结单的转化率,社交是用户成为月活用户的转化率。


   你能做的事情在产品层面有很多,比如说设计、文案、流程、算法等等。在运营方面可以做很多活动、补贴、内容营销,这些都是可以通过A/B测试的方法,用数据的方法帮你优化的。这些东西你都可以提出建议,我不相信你的产品经理,或者不相信你运营老大的想法,我们可以跑一跑试试。


   现实中也有比较深入的数据应用,比如说派单系统、风控系统、对接算法,这都是可以通过数据的方法来不断优化的。大部分优秀的互联网公司都已经这么做了,每一个核心算法,像饿了么、美团,他们的派单算法每一版更新的时候都是要做A/B测试来对比的。对比新方法和老的哪的转化率更高。


   另外就是常见的批量发布,有时候我不确定方案给我业务带来的压力,我需要多少人支撑,多少服务器支撑,能带来什么样的效果,我先放给20%的用户,如果没有问题,稳定了,我再放给50%,这是在所谓的互联网运营场景下,如果没有问题再给全量用户。


   最常见的就是应用场景,比如说定价地同样是400块钱的定价,你是把它放在0—900中,还是放在0—600中,你可以做实验,用数据看看哪个消费者买单更多。同样是75块钱一个晚上的房间,你显示是75块钱一晚上,还是80%优惠,虽然是同样的东西,但是转化率不一样。


   偏理性的消费者,男性消费者可能对75块钱一晚会比较喜爱。因为他不在意你给不给我折扣,告诉我多少钱就行了。但是对女性来说折扣就很有效,零售店也很喜欢用这种方式,你可以跑一跑数据证明这种方案对不对。


   很多场景都可以用,尤其像各种转化率,复购、广告点击率等等。优秀的互联网公司每天就在干这些事,提高转化率。做法很简单,有的地方转化率比较低,有的地方转化率比较高,我可以在这个地方再下点工夫。我享受一个测试的方案,比如说我想对文案做改进,把加入购物车变成吴亦凡送你100元大奖,跑个A/B测试验证一下。如果能提升转化率就做,不能就算了,我们的价值就在这两个方面体现出来了。


   它的实施方案其实也不难,一般来说如果你的技术可以做到的话,可以创建多个实验版本,实验设计好了,定好你的优化指标是什么,调实验流量。比如一开始平均分,过一段时间发现某个地方要多一点流量,然后监控数据做决策,实施其实也不难,当然需要有好的工具了。


   我们就是专门做这个工具的,难免有点广告嫌疑。我们的客户滴滴,他们会招募司机,招募司机每花出去一块钱也是很心疼的,虽然滴滴非常有钱。最早招募司机的页面设计成左边的样子,帅哥开车,写“任何时候成就更多人,都是一件伟大至极的事儿”。这是“每天跑一单,油钱轻松赚”,这个注册率提升了不少,还有“有车的人都应该来进行车主招募”,这个更直白一点,提升20%以上的转化率。最后滴滴通过优化每个环节,大概能把每招募一个接单司机的成本节省大概50%—60%,还是很实在的效果。


   墨迹天气也是我们的客户,他们非常重视用户体验,有很多人用,我也很喜欢,因为它的天气预报是比较准的。比如说在一个小环节做了尝试,去优化。以前这种小的环节根本想不到用数据来做,比如说这个分享按钮。最开始是左边这个,三个圆圈,Network分享这样的。他会看数据,看哪个分享按钮带来的转化率更高。有变一下颜色的方案,有往上弹的,有往右弹的。往上弹的提升了20%多的转化率,从11.9%提升到23.6%,这个提升很大,因为墨迹天气用户量非常大,有更多人分享就有更多的用户可以看到这个天气,然后下载墨迹天气,效果非常明显。这样的实验投入产出比就很高,做得事情很简单,10分钟就可以做一下尝试,两三天得到数据了,就可以帮公司多挣很多钱,多带来很多效果。这个向上弹的分享按钮是苹果公司的设计。


   另外灰度发布的场景大家也很熟悉,比如说中国移动10086这个APP,推出了一个很高级的功能叫诈骗短信识别,这不是AI的功能,而是用人来做的。点了这个功能之后,就需要人来帮你判断这个短信是不是骗子,很有用的功能。但是他担心如果全国用户放开,会不会人就不够了,他就要通过这种方式。先上线了5%还是2%恩的流量,发现全国用户的用量几个人就可以支撑。功能点击率提升了不少,APP的留存率也提升了,用户喜欢他就会更多的去用。慢慢的2%不错,20%也不错,100%也可以,他只需要部署一千客服就行了。


   再看一个很酷的追书神器,很好的阅读APP,这应该是跟产品经理、运营经常讨论的问题,就是怎么让公司挣更多的钱。你阅读小说某一章的时候就要付钱了,左边的设计是购买章节,你要花钱买书。你也可以成为包月用户,我们肯定希望用户跟多的去包月才能挣钱。能不能做这样一个尝试?把包月变成第一选择按钮,付钱变成第二选择按钮。跑完之后效果特别好,提升了50%以上的用户包月开通的概率。包月用户一年给你一个亿,这里五千万就出来了。这是解决大的决策问题的,而且事半功倍,可以证明自己很大的价值。


   这是骑鹅旅行,是中国公司但是购买国外机票,他们试图让用户提高购物车的结算率。尤其是旅行类APP,购物车报废率非常高,很多人订了行程但是不下单。有时候不下单并不是因为不想下单,可能就是找不着了。他们做了一个功能,你订票的时候可以把你过去的行程记录在右边,可以根据这个更方便的下单。最后还是很不错的,用户到订购页面的数量提升了至少5%,统计样本有19%的增长。支付页面转化也提升了2%,对行旅类大流水的行业来讲,2%也是很大的营收。


   有些人没有用,你应该提醒公司用起来。如果你每一次改版迭代用A/B测试验证一下,你就可以像蓝线一样持续增长。否则就可能像红线一样,短期内看起来差不多,但是长期看就很不一样了。

因为我们是做A/B测试的,我们服务了很多客户,传统的参考消息、微软、新东方,也有很多互联网公司。


8FDP(KG_C`I(J@OZH]D4S8I.png



   巴川:感谢问总的分享,作为一个打工者,有时候会碰到聪明的老板,有时候聪明的脑袋做决策比数据快还准,我们回去可以试试王总的方法,看能不能干过一颗聪明的脑袋。


   接下来有请云幕后创始人王武佳,王总,给大家做精彩的分享。



   王武佳:我想先了解一下,现场在听的朋友里有多少是直接做数据相关工作的?人很多,我有点害怕。因为我不是直接做数据的,虽然我一直创业,也很早就做产品之类的。我今天讲的东西可能是对数据分析,特别对数据分析师在一般企业的应用上有一些思考,但是今天大家都是业内人士,我就保留一些,请大家手下留情。


   我不是做专业数据分析的,1999年就做了个人网站,2003年开始做产品经理,是中国最早的,2010年的时候开始创业,现在有好几次创业经历了。最早我们做了国内Web上的直播网站,也是2014年腾讯平台上最大的这样的APP。之后我做了网红女神计划,2015年创办了云幕后,是专门做网络电影的公司。没有一天从事过专业数据分析,不管以前是做个人网站还是产品经理,一直都跟数据做交道。跟数据分析师配合中也有很多怨气,今天撒在大家身上,请多多原谅。


   如何做敏捷的数据分析?大家想到创业都想到我们这样的创业者,做点小项目。在一些大公司,成熟企业里其实也会有新启动的项目,这也是属于我们要讨论的范畴。中国市场上的企业能够聘请数据分析师的,一定是有一定规模的企业,我相信10个人以下的团队应该不会请专门的数据分析师。


   我一直在创业,包括一直做产品,我们经历的很多项目都是从0到1,比较早期的团队。我们日常工作中所使用的方法和需求,跟一些场景,跟在座各位日常工作中的方式不太一样。但是不管你是在成熟的公司里还是已经很成功的公司,推出一个新的产品功能,在大公司里也是屡见不鲜的,希望我的分享能对大家带来一些新的启发。


   《精益创业》这本书大家看过吗?看得比较少。这是最近二三十年从硅谷流行起来的,我们最早称之为火箭创业。摩托摩拉这家公司曾经是很辉煌的,但是它们后来走了下坡路,除了手机市场的原因,更大的失败原因是90年代末的时候,上马了一个宏大的项目。希望在全球部署77个卫星,实现人类在全球任何角落,无论是

在沙漠还是北冰洋,拿起电话都可以打通,这是很宏大的愿景。


   传统火箭创业都是有一个大的想法,然后再实现。但是在这个过程中可能没有任何的调整或者调节、反馈,更不可能像刚才讲到的A/B测试这样的做法。这样的测试和商业计划中,做数据分析更多为了跟踪反馈,而不是在测试阶段做调整。如果这样的话,成功就会很成功,如果失败的话,就会把一个很辉煌的公司拖垮。


   2000年互联网泡沫期间美国有一个很著名的公司,专门做生鲜电商的公司。今天我们习惯了在饿了么订餐,2000年的时候美国一家公司也是做相似的工作。他不是先找一向个地方试点,而是瞬间在美国好多大城市建立了很多仓库,部署了非常庞大的物流系统,也用了先进的数据跟踪手段。但是一下十几亿美金就下去了,市场需求并没有迅速成长起来,这个公司也挂了,这是传统的创业方式。


   近一二十年来从硅谷到中国,更流行的方式是精益创业。它跟火箭式创业不一样,发射火箭会有倒计时,从什么时候发射,以及火箭在空中要走什么轨迹,要脱离轨道,时间、速度都有精确的要求。但是日常开车是这样吗?一定不是。来的路上可能都不知道中国大饭店到底在哪,过程中会有很多调整,这就是精益创业的理念。我们创业的时候知道有个模糊的方向往哪个方向去,但是如果二环堵了我们可以走三环,三环走了我们可以走辅路,这时候对数据的分析、需求、理念跟传统火箭式创业完全不一样。


   传统火箭式创业允许我有独立的数据分析部门,先进的数据分析工具,但是在精益创业中,特别是小的团队中,雇不起专业的数据分析师,也没有那么庞大的数据需求。我这里会讲到一个概念,对于精益创业的企业和团队来说,数据分析并不等于大数据。我们今天在网络上找,公众号里有大量的文章都在谈大数据,我不反对。


   回到创新项目、创业项目的时间来说,大部分的项目面临的不是大数据,而是快速增长的小数据。这时候我们天天在网络上听很多人分享,讲大数据分析的方式,可能不太适用。大部分小公司根本用不上Hadoop这样的重量级的分析工具。如果是传统的大数据,平时大家所讨论的大数据的分析方法、装备,甚至一些团队,如果直接引进到小的团队或者创业企业,创新项目中,可能就会水土不服。这样的大数据分析方法,在我看来可能会有几个缺点:死、慢、费。


   调整起来比较死板,不是特别敏捷。比如说在座的有数据分析师,你们不会像运营和产品老大汇报,而是向总监汇报。大部分公司都会有独立的数据分析部门,从某种程度上来说是屁股决定脑袋,你一旦坐在这个部门中,你的思想方法完全是受专业分析师那一套逻辑约束了。


   除了我们自己分析的团队,我也跟很多在外面做数据分析的朋友交流,包括阿里巴巴、腾讯这样的成熟企业。我们做数据分析的时候也要经历提需求、数据分析团队的老板或者领导去审核,交给数据分析师,再去建表、分析、出报告,业务部门才能拿到数据分析,大部分公司都是这样的流程。


   很多人觉得产品要不要把需求想好了再跟我提,哪些页面产品看得多,或者运营给我提的需求,跟我说多重要,多紧急,结果你只看了一次,后面再也不看了,会有这样的情况。这是屁股决定脑袋的,作为一个产品、运营或者作为一个创业者来说,很多时候我们是无法说我做这样的分析,我想要这个数据,未来是每天都会看的。


   我们可能怀疑业务下降是因为北京天凉快了,我是卖空调的。但是天津也很凉快,那边卖得很好,这是为什么?我就要看一下具体的原因。是不是天津整个物流成本比较低?因为靠近天津站,配送会更加方便一些,配送时间跟空调小会不会也是关系的?


   我们真正得到结果,要有几次迭代,这时候如果这个需求是你自己提出来的,你是很愿意做探索的。但是如果是其他部门,产品、技术提的话,你就会问他要不要想清楚再跟我说,所以就会比较死板,比较缓慢,很难响应业务部门的需求。而且比较贵,特别现在数据分析师比较抢手,有些人为了体现自己的专业性,我们会部署更加复杂、更加强大的数据分析,这会造成整个体系在传统的大数据分析系统下造成的整套体系,相对来说不太适应创业公司或者创新公司的要求和需求。


   我们希望我们的项目能成长为非常大的项目,有人用,但是大部分创新项目是面临着增长的小数据的。如果用看起来非常高大上的理念来做,当然我也不反对,但是我比较反对的是直接照搬大公司、大企业中用的所谓比较高大上的工具。


   对于一个创新企业、创新项目来说,数据分析或者数据存储,整个企业数据这方面的要求来说并不是特别重要,客观来说大部分创新项目也没法拥有大数据,敏捷才是关键。你能多快多少数据?甚至某种程度上数据的准确度,精确程度有时候也可以牺牲。


   有时候用户点击行为不一定要通过预先埋点才可以分析出来,也可以通过其他的方式得出结论,并不是一定要把所有的用户行为都采集到,实际上有很多替代方式达到效果。我们如何用“黑客”的方式解决问题,而不是用科学家的方式解决问题。


   对于数据分析,特别是精益创业的数据分析敏捷的核心在哪?敏捷的核心不仅仅是快,快只是其中的一个侧面而已。不是说我上午向你要数据,你下午就给我这就是敏捷了,这只是一方面。敏捷还有快速调整,当然这里面有大胆假设、小心求证的过程,这不是单线程的,而是要反复迭代。比如说刚才说的空调销量下降的情况,可能会有很多因素在这里起决定性作用。那具体是什么样的因素?我们可能要经过好多次迭代才能得出结论。如果你用很死板的报表,一次性数据跑出来结果,后面你不能再给我提供需求了,这时候可能会限制业务人员、产品、运营分析结论。


   甚至在一些比较大的团队中,每个月或者每周会给产品团队、业务团队限制业务需求量,这也是限制了业务团队了解真相。


   在创业团队或者创新团队中,我们对数据分析的需求和成熟的大企业,成熟的项目有关系。


   1.实效远远大于形式,大家都在谈可视化,可视化当然非常重要了,很多工具都是用可视化做得比较好的方式做卖点。但是从实战的角度来说,如果决策权就在我团队的内部,对我来说可视化不是特别重要的一件事。这两天大家都知道一个新闻,亚马逊的老板贝佐斯成为全球首富,他说什么是创新项目?第一个创新项目一定是两张披萨饼构成的项目,大部分决策都是在本地或者团队里就能做决策的,向上汇报的频率会少很多。对于我们来说,数据可视化或者很复杂的可视化要求是比较低的,而对于数据调整的频率是比较高的。


   2.极致的性价比。极致到什么程度?不在数据分析上花一毛钱。创新团队甚至不应该请任何数据分析师,大家不要误解,也会有数据分析师或者是外部工具给这个公司赋能,低成本的运用这些资源。


   3.快,胜过一切。对于创业团队来说,3个月内可能方向都调整了三四次,甚至整个成员都轮换了一遍。所以你不可能一两个月把参数建起来,再慢慢分析。很多产品上线第一天就要出数据,很快的进行调整,这是严酷的创业环境所导致的。


   对创业团队来说要成为数据驱动的团队,但不需要数据分析师。大家要理解我说的这个场景,大家所在的企业,大的公司可能不能理解这一点。我们所处的公司,可能很多人有充足的预算。但是对于小团队来说,每个人都要上战场,每个人都要直接为代码做贡献,所以很难拨出专门的人手来做这个事情。而是说团队需要具备数据分析能力,而不是有一个专门的数据分析师。


   在创业或者创新团队中,数据谈对或者数据分析团队应该是为产品赋能,甚至为所有人赋能。我听到一些大公司朋友在聊的时候,他们有一些烦恼。一个从腾讯出来的资深数据分析朋友跟我说,你们怎么保证数据分析师能有足够的权威?我觉得在一个创新团队中,有人都应该去权威化,不仅是数据分析师,团队的老板也是一样。对于创业团队来说,理论上两张披萨饼能喂饱的团队,每个人都应该有访问权限。我们公司一直贯穿这样的理念,当然除了销售这类人员。只要是做产品运营的,从老板到运营,所有人都可以访问所有的权限。


   对于一般数据分析师来说既要有数据分析能力,也要有业务感知能力,但是我希望对于一个精益创业团队来说,所有创业人员都可以成为比较好的数据分析师。比如说在我公司里,我希望所有的产品经理都会做简单的数据分析,大部分的业务场景80%的需求简单的数据分析都可以,这个学起来也很快。


   对于数据分析师来说,或者数据分析团队的定位不应该是流程的建设者。很多人说数据分析的现代流程很科学,包括你提需求,更好的帮你把关这些需求是科学还是不科学。对我们自己的团队需求来说,数据分析不应该成为整个团队做分析的瓶颈,不是用科学流程去把控哪些分析该做还是不该做,哪些分析的有限极高还是低。我们团队里觉得所有的分析需求,理论上都应该毫无差别的满足。


   我们没有专门做数据分析的,但是有一个工程师是专门搭建数据分析后台的,理论上更多是为了产品和业务人员更方便的使用,而不是借助数据分析师的一双手进行分析。




来源:CDA数据分析师峰会:互联网大数据_分会场

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据分析师行业峰会 数据分析师行业 中国数据分析师 数据分析师 中国数据

沙发
admin_kefu 在职认证  发表于 2017-8-11 13:24:03 |只看作者 |坛友微信交流群


   这几年创业、创新团体比前几年好很多了,我说好很多并不是说国家支持,双创这些。而是说现在的一些软件、工具也越来越成熟,前几年我们公司报表还是自己去写的,现在越来越成熟,对于创业企业来说可能不需要专职的人就可以把这些东西做好。在敏捷的数据分析团队中应该达成几个方面的要求:


      1.易探索。像开车一样,不应该只是有一个仪表盘显示水文箱高还是低,速度快还是慢,而是应该有人去分析探索自己团队做得好不好,而且在此基础上进行改进,应该给业务分析团队做一些探索。


      2.性价比,这一点当然也很重要了。


      3.自助式。数据分析团队理论上是为所有人赋能,让团队中的每一个人都能成为数据分析师,而不是把数据分析能力禁锢在自己团队内部。


      4.快快快,这是我反复强调的。


   能做到以上几点,才能被称之为优秀的数据分析团队。


   我们可以分享一下我们平时做的比较多的工作。


         1.关于默认埋点。


   我们小团队可能跟大公司不一样,对于所有的工程师来说,最烦的一件事就是埋点。产品改进中,一个产品迭代之后你发现原来埋了一个点,由于功能变更这个点不见了。在我们公司里面做数据分析,大部分的数据结论探索最好都是线上生产数据库中既有的,比如说年龄、性别,包括用户账户余额。在我们公司所有的线上数据都会在备份库,百分之六七十的需求都可以在这里做探索,这就避免了大部分的埋点需求,这样优先级就会弱很多。


        2.不要迷信大公司。


   我们请了三个数据分析师从大公司出来的,这是刚开始,从大的团队中出来的人可能有一个小小的问题,他的全局观会弱一些,越专业的可能这个问题越严重。有些人只做某一方面,可能在用户点击率做得非常好,但是很难有全局的观点。这样的人跳槽到创业团队中,这就会跟团队文化和团队需求有点冲突,这是我对创业团队的忠告,没想到今天来了这么多专业人士。


        3.竞争情报分析。


   对于大的企业来说,会把这方面的工作外包给第三方团队,或者直接在市场上买一些报告,大公司有钱当然可以任性。但是对于小企业来说,竞争情报分析非常重要,他买不起这些情报,网络上卖的一些数据分析报告是非常贵的。大部分的分析报告水分怎么样,专业人士会有判断。由于我们所处的行业和项目,都是比较新的,市场上第三方数据分析很难对新项目产生报告。


   对于创业企业的数据分析团队来说,就要承担起这样的责任,如果在大企业工作的数据分析师,很少人会涉及到如何采集竞争对手的数据。对于一个创业团队来说,你甚至要具备一点分析人家的数据,甚至黑客的手段采集数据,这样对公司的帮助是非常大的。


   今天我的分享就到这儿。

   巴川:对于人人都是数据分析师这个事是一个梦,如果这个梦实现了我们就没饭吃了。下面有请猎聘网高级数据分析经理李国建先生,讲讲“人力资源大数据在招聘领域和经济领域的广泛应用”,有请。



   李国建:大家上午好,我来自猎聘,专门做数据分析的。刚才听了王总讲的,各位是不是有点怀疑人生啊?自己做的事情是不是没有意义啊?不同阶段的创业公司对数据分析的应用和重要程度的确是不一样的,如果只看日常数据的展示或者报表没有问题,但是如果想测量一下活跃度,未来这个人的价值,可能还是需要复杂的模型做支持的。


   今天我花一点时间讲一讲人力资源或者招聘领域的大数据,如何在业务层面发挥作用。


   猎聘是关注中高端招聘的平台,我们专门有一个猎聘大数据研究院这样的团队,会做前期数据的处理,包括数据分析师团队,是一个麻雀虽小但是五脏俱全的数据分析团队,包括目前的数据量,支持大家心目中想做的数据模型和数据分析支持。


   目前数据的储备企业有50万家,大家能想到的,在这个领域Top几百的企业都是我们的客户。我们还有30万左右的猎头,3600万精英数据,这个就不细讲了,因为时间有限。这是我们做大数据研究的一些方法,猎聘跟普通的电商数据不太一样,我们除了有自己用户行为数据,还有集约化数据之外,还有很多文本非结构化数据,我们有很大的团队是处理这些文本数据的。


   下面重点讲一讲我们在招聘领域,人才大数据到底是如何发挥作用的。包括两位老总都提到了,数据在各个公司发挥作用其实有几个阶段。


   现在大部分数据分析师都在做这个事情,就是做需求。需求有可能来自产品,有可能来自品牌部门,还有可能来自销售部门,因为它都需要拿着我们的数据发挥公司的优势。在这个层面,用数据支撑现有业务,是目前数据分析师占有80%以上的工作量,非常有意义。这个事情我今天就不讲了,大家都懂,而且包括A/B测试、归因分析,都很常见。


   猎聘3500万用户在用,每天会产生1亿—2亿日志,数据已经变成了资产了。这些数据怎么在公司发挥作用?可以通过数据分析师形成一些直接变现的数据产品类型,这可能是我们数据分析师下一步要考虑业务的关键点。我永远是在支持产品部门、运营部门做数据支持,没问题,这是现代数据分析师必须做的事情。但是在公司里让数据团队发挥价值的体现,这可能是另外一个维度。

     

       1.简历透镜。


      “6·16”我们正式推出,它是数据驱动的一款产品。其实简历已经存在很多年了,大家看到的简历永远是一张纸,在网上是一页纸。一个求职者入职到一家公司有很多影响因素,能力强不强,能力跟我职位匹配不匹配,如果匹配,我是不是一定要到你公司来。这些我们网站的平台上都可以做,我们会把这些数据打捞成HR特别关心的点,而这些点是他多年来都无法解决的一些痛点。


   当你看到一个简历的时候,可以告诉你其他一些额外的信息。比如说你的薪水是多少,这不是你的期望薪水,而是根据你的投递,根据你的期望算出来的。包括你所在的大学,大家对国内高校很熟悉,但是给你一个国外高校专业,你知道它的含金量有多高吗?如果你是一家制造行业或者其他行业找我,可能没有太好的待遇我是不想去的,因为我主要投的是IT行业。HR在给你打电话的时候就知道了这些期望,包括职场信用,你有多少次面试,面试的过程中有没有放鸽子的情况。


   一到两年的HR工作就可以变得更高效,更有价值,这就是我们刚刚提到的,从所有数据里提取出来的,这是可以由数据部门来主导的事情。


        2.职位透镜。


   在座的求职者如果看一个职位的时候,特别知道这个HR到底有什么偏好,是不是只要985、211学校的,是不是只要来BAT的。我们求职者也想看一看HR是什么偏好,这是一个。另外这个职位已经存在这么长时间了,是不是有很多竞争者都投递了同样的职位,我的竞争力怎么样?匹配度怎么样?这是求职者想知道的信息。投的任何一个职位,都是想要有反馈的。


       HR给你反馈有很多原因,首先你能力要强,符合我们的要求。第二你在这个层面上,我认为你的条件是脱颖而出的。因为我不是招500个人,只招1个人。所以我们会给求职者赋能,让求职者变得更Smart。这个职位可能每天投敌非常多,HR活跃度也很高,那对于给你反馈就非常有帮助,你就有一个基本概念。


        3.职位难易度评估。


       HR发布一个职位的时候,其实他不知道职位在竞品中相比难还是不难。你职位要求这么高,没有这么多匹配你的人。你的职位这么普遍,薪资这么低,你还想招这么好的人。这都是问题。你刚一提交,就知道了职位难易度,这也是给HR做赋能,而且这样的产品会让你感觉到真正AI的体验。


   你完成提交的时候,就会告诉你目前匹配度是比较低的,我要给你一些招聘建议。什么样的数据才能达到收费的标准?一定要轻咨询,而不是我简单的给你展示个信息,这个太简单了。我们只是做一个报表,这个东西太初级了,难易度怎么衡量?这是商业机密,我就不再介绍了,但是这里面有很多细节和模型的应用。


   职位和人才简单的匹配,这个比较高端。如果大家用猎聘的话,会发现每天都会有猎聘职位推送,同样在HR端也有很多简历推荐给他,这种高效的匹配对于找工作和找人来讲都是非常强大的。对于HR来说,招聘场景越来越多,为什么一定非要在PC端呢?是不是在手机端也可以做?手机端写字很麻烦,那我可以说啊,我要求招聘的人在北京,是什么样的背景,说完之后自动给你匹配。


   文字如何标准化,标准化如何进行匹配。不同的匹配度,不同人的水平,会让你发现。数据不是简单的支持现在的业务,而是有变现价值的,因为数据是资产。刚才看到第一个图的时候,可以告诉大家,以前猎聘的简历就是所有招聘网站最贵的,我们一百块钱一份。附加这样的简历透镜,我们可以提高20块钱。现在每个量要乘以20块钱,这20块钱是你所在数据团队提供的。


   这是我要说的第一个事情,人才招聘领域如何用数据做所谓一些高大上的事情。

第二个事情再讲一下人才大数据在经济发展领域的尝试。


   发改委就业人事司专门找到我们,要做一个精确发展和人力发展相关的模型。这个项目我们签下来了,今年6月份会把这个报告形成一本书出版,叫做《中国经济结构、人力资源和就业创业大数据分析》,具体内容后面会有,这里先简单介绍一下。


   供需、流动、薪酬这些比较简单,包括就业质量,最后是人力资源经济指数,这是很有意思的。运营和产品都要会做的话,可能我们真的会失业了。很多都是直线联系,比如说我今天想看日活率,这个很简单。在座的每个人如何跟经济发展,如何跟GDP发展挂上勾?这个很难。


   大家的思路一定要开拓一点,做人力资源模型的时候我们就考察了一些经济学的里冷,劳动经济学、宏观经济学,我们发现了很有意思的事情就是生产函数这个事情。我就不细讲了,他分成增长模型和道格拉斯模型索罗斯旺。Y是GDP,L是人力资本,K是固定投资。这跟人力资源完全挂上钩了,但是坑在后面。L在经济学模型里就是劳动人数,这个含量就低了。


   我们做的时候把模型做了一个改进,这是分析师一定要会的能力,要把现有数据转化为跟公司最贴近的方式。我们扩展了一下,L原来是数量,现在加入了人才质量的情况,这时候模型含金量就起来了。这时候加入TEI指标,前后就可以有联系了。


   很多人会说多元回归很简单嘛,但是如果我告诉你数据样本,比如说可以计算的GDP,可以用的GDP,从80年代到现在,四十多年。每年可以分到不同的省去,多少个省?三十多个。大家自己算一算这个数据量有多大,不管你是用多元回归还是传统统计方法,这个坑你肯定是埋上了,因为数据量太小。那怎么做呢?这时候就一定要考虑其他的模型。我们不用多元回归了,我们用的是固定的随机效应模型。


   这个对于样本里面异常值是非常敏感的,对于GDP这样很少的样本,筛除很多异常值,确保这个范围。固定随机效应就可以消除刚才我说的影响,具体原理大家可以在网上看。我们用这个模型跑,但是发现TEI还没有计算,我们就可以开始算TEI。


   除了TEI,其他所有数据都是来自国家统计局。但是资本存量它是没有数据的,只有每年的增量。资本存量怎么估算出来?我想强调一点,国家不会告诉你劳动力数量是多少,你就要找一个通俗的,能够代表劳动力数量的指标。经济要跟人力资源挂钩,这里面没有含金量,那我们加TEI进去。收集数据的时候坑又来了,大家只要把坑填满了,模型就非常完美了。


   重点看看来自于猎聘的TEI指标是怎么做的,我们知道任何一家企业,任何一家第三方机构手里拿的数据都不是总体数据。猎聘可能有3千万数据,智联可能有其他数据,任何一家企业的数据都是样本数据。如果你拿这些数据分析你当前的一些基本状况的话,没问题,因为对于这个来说你是总体。但是如果想衡量北京地区经济水平和人力资源水平是什么样的话,是有问题的。


   所以我们要做抽样,抽样有多少种方法大家都很知道,我们会发现什么样的抽样会让数据应用率最高呢。我们按经济第一、第二、第三产业占比去抽企业,用这种分层抽样。我们认为这些人力资源贡献了这么多经济总量,实现自动化抽样,抽样自动整合,整合成我们可以计算的一些数据,这里面又有很多工作量在里面。


   抽样的时候分为B和C,TEI怎么做一个指标?很多指标都是现成的,有些是开发完的,有些是需要开发的,因为你要把现在的资源做好。指标调优、权重设计都要做,你可以问问自己知道多少种做指标的方法,有多少种做权重的方法,不是我拿一个方法上来就用,好多东西是需要内部做一些调优的。所以我们把这些东西做完之后,这个模型就已经初见成效了。


   经济学上很专业,流行了几百年的衡量标准是α+β的值1上下。对于发展中国家来说,这两个值加起来应该是大于1的。对于国家政府部门来说,出来这个指标对它来说是很大的冲击力,我人力资源提高多少,GDP会提高多少。


   今年我们又接了发改委另外一个项目,叫经济发展与人力资源匹配研究。随着大数据和AI技术发展得越来越快,对现有的一些行业是有一些冲击的。比如说自动驾驶这么好,是不是未来物流都不用司机做了,自动驾驶直接就过去了。连同声传译之前很高大上的职位都可能被替换掉了,国家非常想看这些值跟人力资源匹配,

看哪些会没有,哪些会突发出来。


   这一部分讲的是数据在公司内部可以发挥很大的作用,同样这些数据在外部也可以发生,数据发生对公司也好,对个人也好,对所在的数据部门也好都有很大的提升作用,要不然我们做的事情永远是做浮脚标的事情。


   这代表这个地区人力资源综合水平是什么样的,北京地区0.74,上海是0.75,这是国内两个最高的人力资源水平城市,这跟我们的想象基本是一致的。这里人力资源在不同维度做的分析,这个地区的人才质量、刘栋效率,不同行业和地区是不一样的,会给政府很多指导意义。东北地区人才流失,因为产业出了问题,产业怎么出了问题?人才流动太大了,可以在具体指标分析中得到结论。


   第三个,人力资源大数据应用破局点。


   公司内、公司外有很多人力资源大数据的应用,但是这还是在传统领域打磨。以前HR做的事情我让他变成更好,以前做的事情花10分钟,现在花1分钟。从我的角度来说,大数据不仅仅只是能做这些事情的。因为我们对现在的人力资源市场,未来的求职者会有一个判断,会为自己的职业生涯买单。


   现在是企业主导,基本上是企业花钱,C不花钱。如果你找了非常好的工作,可能比现在的工资要提高几倍,我让你拿出一个月的工资来我们提供的服务愿不愿意?愿意的还是占大多数。现在中国人口红利在消失,中低端人才会被自动化、大数据和其他东西替代。这些人怎么办?要找工作啊。以前从农村出来去广东打工,不要去广东,因为广东人才已经过剩了,你应该去其他地方。你要去这个地方的什么行业?


   中国有多少数据分析师?有多少数据分析经理?多少数据分析总监?越往上淘汰越高。数据师分析水平有时候觉得没自己高,可能是因为人家机会好,职业规划好。你需不需要这样一种服务,让自己的职场生涯更成功?现在知识付费非常火,罗振宇的《逻辑思维》,得到,几年时间净利润超过了几千万。大家愿意为知识付费,都愿意为知识付费了,为什么不为自己职业生涯付费呢?


        B是企业,C是求职者,现在他们追求的东西是在变化的。对于现在的企业来说,我现在入职要非常快,招人要多,人才要匹配,薪资还要低。HR的工作量是很大的,招这么多人,还有这么多人离职,尤其数据分析师。以前企业看效果的时候,随着行业包括各个领域的人才逐渐处于平衡的时候,要提高自己的效率。我现在招的不多了,我只需要招到合适的人,同时薪资要更合理,只要匹配好就行。


   以前招人非常难,现在投递的越来越多了,那我怎么高效处理投递的东西呢?简单一个个看肯定不行。包括C也是一样,C以前是很讲究效率的,投个简历HR给我反馈,职位选择要多,现在看十个都看不过来,因为你现在还处在找工作,选择方面你是强势的,入职的时候又弱势了。随着竞争越来越激烈的话,你想进行心怡职位入职的话,需要做很多事情。


   同样做数据分析师,5—8年,10年以上分别有什么样的技能?你掌握了吗?掌握程度怎么样?我上升通道怎么样?我能不能从数据分析师转到产品经理啊?以数据分析师形式上去,到产品总监的形式上去,可能时间是不一样的,薪资增长也不一样,这对你职业生涯来说不关键吗?简历是不是也要定制化啊?我投大公司,大公司更看中什么东西?我投一家创业公司,我们对数据分析都不感兴趣,我为什么要花钱给你?你要投简历的时候是不是要体现能吃苦耐劳,我还可以做产品经理运营、数据分析还可以做销售。所以不同的职位有不同的要求,作为求职者来说不像以前千篇一律的投简历了。如果你还是这样做的话,你就是那个找不到工作的人,因为职位越来越少。


        B要效果,C要效率的情况会逆转,这是我们的盘但。


   我们做招聘网站都在做获客成本分析,当你是求职者的时候,我们特别想让你过来活跃。如果你是高质量的人就更好了,因为会产生很多价值。我把你招过来之后,你要给我产生价值,被别人下载就产生价值了。现在我们发现什么是永久用户?现在都在做中高端招聘,可能要几年工作经验,年薪多少以上才是我们的核心用户。但是这时候发现其实有很多牛的人,刚出来的时候是初级员工,不是我们所谓的目标客户,但是发现两年以后他就是了。


   还有可能在学校里这个人非常牛,出来写简历也如此,我们为什么不把时间轴往前拉呢?哪怕你是应届毕业生,高二、高三的学生,是不是要尽快把你拉过来。有一个做校园互联网金融的,就是培养这些孩子花钱的水平,永远都是在透支。今天我透支吃顿饭,明天我透支换电脑,手里面是没有钱的。工作3年之后,终于把上学时候的消费还清了。这些人有一个特点,这种消费习惯养成之后是非常难改变的。如果我们消费从娃娃抓起的话,就是这样的,做贷款要从娃娃抓起,招聘为什么不能这样呢?


   现在好多高校同学水平非常好,也不比你有3—5年工作的人经验不差,如果是单一领域的话。找工作你要来找我,看职场资讯找我,我们都在做横向的拓展。其实我们会往年龄成长轴上做,大一就让你用猎聘,告诉你职业怎么发展。


   再延伸一下的话,为什么每个人都需要简历?我要写,还要修改,每年有新的工作经验还要加进去,很麻烦,还怕自己写不好。如果我们从上学第一天开始,所有数据都加到一个芯片里,一直积累到毕业,毕业工作之后,其实每个人的简历都不需要你自己写。包括职场信用、能力提升、项目,都可以在这里体现。如果是这样的话,我们还要写什么简历啊,企业的需求也是很格式化的,这就是在人力资源破局的思路。数据分析师如何提升自己的价值?这个是大家要考虑的。


   求职者和用人方是数据的提供方又是数据的提供方,为什么数据产品可以做到有价值呢?就是因为目前的信息不对称在这个领域还没有这么好。比如说我要先买个产品,买个海尔冰箱,大家可能连海尔怎么发家的,当年砸冰箱的事情都了解。求职者竞争力怎么评估?一个人有很多抬头,做两年数据分析,做两年JAVA,能力匹配是不一样的。


   你企业为什么牛啊?因为我跳进的时候薪资高,跳出的时候薪资还高。衡量一个平台的优秀或者不优秀,完全可以用数据去做。这个指标怎么设计?是数据分析师来设计的。在第三方同样可以输出数据价值,包括政府的一些数据孤岛,现在很多数据都是单独存在的。


   我们平台发展得非常快,我用30秒做个广告,现在数据领域的各个层面我们都在大幅扩招,包括算法工程师、数据工程师、数据挖掘师等等,大家感兴趣的话可以联系我。我们这边有一个不成文的面试规定,我们老大一直觉得聪明人喜欢跟聪明人一起玩儿,如果你是聪明人的话可以来试试,这是很好的职场发展路径,谢谢大家。



   巴川:谢谢国建的演讲,按照安排我们有5分钟的茶歇,5分钟之后我再把数据挖掘的话题往回拉一拉。


——茶歇——


   巴川:我给大家带来的分享主题是“互联网用户行为挖据”,我是巴川,现在供职的公司是竞技世界。做的方向主要是数据挖掘,用户行为挖掘是一个领域。第二职业是在北航教书,之前在互联网公司工作过,竞技世界、搜狐畅游、乐视、中国搜索。主要研究领域互联网运营分析、产品分析、社交网络挖掘、推荐系统、数据可视化。


   这是今天要分享的目录:数据挖掘项目的特点、用户行为挖掘案例、体会与总结。


       1.数据挖掘项目特点。


我列了五条:

大数据、低价值。

   现在大家对大数据都不陌生了,有4个V的特征,第四个V就是项目价值低。大数据、低价值对应的就是废品率高,很多数据挖掘项目都是在探索阶段,探索完了之后未必都有好的结果,十个有八个可能都是报废项目,有很多是解决不了的,现有技术手段解决不了可能会放弃。还有一些项目做出了一些结果,但是未必能推动到线上,是不是能真正产生价值有时候是要打一个问号,这跟前面王总吐槽各种各样的大数据是有关系的。

十个里面有一个能产生价值的话,都会远大于数据挖掘团队年薪的N倍,这还是值得我们去尝试的。

精准计算与超强容错。


   如果大家做过类似项目的话,我们希望大数据能够预测得比较精准,但是在很多业务环境里预测的不那么精准,有时候预测不准的时候,就会根据你的业务场景,把目标、期望值降到合适的程度。有时候不是要求百分之百准确,比如说付费转化率提升几个点就已经很可观了。我们平台现在提升0.2个点,就已经非常可观了,远大于团队好几轮的年薪。


   模型精准与泛化能力。


   有时候这个模型我们希望能用一年半载,但是在不同业务场景里不一样。有的模型一个月得调一次,有时候模型要用半年。一会儿说的用户预警流失模式,可能不同的行业之间调整周期不一样。


   不同业务场景有不同的追求。


   一会儿分享第三个案例的时候会讲,两个完全不同的业务场景里用的算法都相同,都是分类问题,但是最后调整的方向完全相反。


   数据挖掘的目的与本质。


   对于数据挖掘本质我们认为往往是从大数据终挖掘统计规律,这是很有技术含量和数学特色的定义。数据挖掘的目的往往是从别人口袋里挖钱,把大数据当做金矿,在金矿里挖金子,数据挖掘的目的往往商业化更浓一些。


       2.用户行为挖掘案例。


通过几个案例一块交流一下数据挖掘怎么样用在互联网用户行为挖掘里,一共是三个:用户行为路径、用户搜索网络、用户挽留与封杀。


  (1)用户行为路径。


   先介绍一下产品的背景,当时的项目是一个互联网分发平台,手机上的APP。这个APP主要是面向海外市场的,里面有160多个页面,每个页面我们会当成一个节点,用户在不同页面中的跳转路径当作一条线,我们会得出这样一张图。用户行为路径太过散乱,现在不知道看了这张图有什么价值。但是在我们的用户行为路径系统里,数据平台里有一个模块“用户行为路径”,可以过滤,过滤后可以保留一些比较重要的节点,去掉不太重要的节点,如果觉得不够还可以再过滤、再过滤,最后看到几个比较重要的节点。


   最重要的是Home页,节点大小我们是用用户的到达率渲染的,到达人数或者次数,也可以是下载的人数或者次数,由你自己定义节点的属性,用这个属性渲染节点的大小。最重要的是Home节点,另外右上角下载管理,我们这是下载平台,跟属性有关系,用户可以在上面下载图片、音乐等等。下面几个,策划栏、games、apps都是我们主推的频道,音乐、图片、视频、电子书,主推的是电子应用。上面有一个壁纸详情页,这个意外的超过了游戏和应用。我们可以定位另外一个应用的场景,就是我看到图片的到达率和下载量比较高的话,可以定位我的目标节点,就是壁纸详情页,可以做单页面的来源分析。


   这是目标节点,边上的数字可以是用户人数和次数,也可以过滤,只留最终的节点,再过滤。来到壁纸详情页的有几个大的节点,下面三个比较常规,壁纸新增热点、搜索结果页。是我们新上了一个功能“搜索功能”,说明搜索功能起的作用还不小,能够把原来不太热的热点带热了。搜索的作用在这儿基本上算是得到了印证,至少这个团队没有白挖。


   相反用户行为路径分析有另外一种场景,就是单个页面的去向分析。刚才定位是全节点不限、目标节点就一个,现在选择语言节点就一个,目标节点不限。首页去向哪可以看到,全部看的话费劲,过滤、再过滤,过滤之后还可以加上数字。过滤之后可以看到从首页到达其他页面,到达最多的有哪些,另外页面的下载量可以看,数字可以改成人数、次数或者是下载量其他的属性,边上也可以加数字,就是从这个页面指向其他页面可以赋予一定的权重和次数,完全可以自由定义。我们这儿是边是人数次数,页面是下载人数或者达到次数。

更重要的是主题行为分析,刚才展示了整体的用户行为云图,但是整体的时候往往是纷繁复杂,用户行为散乱,不一定看到你想要的价值。什么算有价值?出乎意料。像刚才壁纸详情页,出乎意料得多,就有的分析了。很多时候我要定位用户行为的时候,你把所有的云图拉过来,可能看起来会非常乱,这时候我们挑着做。除了刚才做来源分析去向分析,还可以做主题行为分析。我们可以定位语言节点、目标节点全都是跟音乐相关的,看一下页面跳转路径,还有来源比较多的节点。另外如果是电商平台,可以定位用户的购买流程,从搜索到达商品的详情页,点击加入购物车、购买,最后付款,还有确认收货、评价,这一条用户购买行为跟主题相关的页面不超过10个,也有可能有十几个。付费中间可能有几个岔路,支付宝、微信、银行卡,银行卡又分借记卡、信用卡,每一个环节都又可分析的地方。


   怎么从你的业务场景里抽象出主要功能,抽象出用户的几个主题行为,专门做路径行为分析,这样可能更有价值。


   (2)用户搜索网络


   这是在中国搜索做的,起了一个名字叫“用户搜索观星台”,这也适用网络分析方法。我们把搜索词当成一个节点,把用户当做一个节点,多个用户,多个搜索词就可以连成网络,可以进行划分,把有相同偏好的用户分成一个社团,也可以看跟搜索热点相关的其他热点,也有活跃用户。


   第一个站点是印度站IN站,主要针对北美、墨西哥、东南亚、中东这些国家。10月10日的用户搜索网络大概长这样,中间有几个核心社团,周边一圈散点有的用户可能就搜了一两个词就走了,这个数据是经过过滤的,并且做了抽样,其实平台日活也是千万级别的。IN站当时日活也有200万,是峰值的时候,数据到前端之后其实已经少很多了。


   这是把核心社团放大之后,用户搜索最多的是Facebook、Whatsapp,还有Tubernate,mx player,都是听音乐的。右上角的flipkart很有特色,类似于中国的天猫、淘宝,这是印度本土的电商。在中国总部的这些人是不知道印度人民、巴西人民喜欢什么的,就靠当地人民自己的搜索行为来总结出他可能喜欢的热点。展现的搜索词是可以点击的,在系统里点击之后可以链接到搜索结果,如果搜索结果没有这个结果,或者搜索结果为空的时候,就说明当地人民喜欢这个东西而我的库里没有,我们就会马上补上。我们还有一个栏目是转变给编辑留的,人为的做一些主题推荐,这在不同地区会推不同的内容。


   这是二级社团,很有本土特生。搜索词不加过滤,可能十个有七八个都是这样的词,这是最大的。右边uc浏览器是中国的公司,当时我们分析在一段时间内,这个公司在印度市场长期占据前十下载量的地位,这也算是中国互联网公司出海的成功案例,后面还有小米。下面这个社团核心此是bang bang,动感音乐。在印度音乐长期流行,但是每周或者每几天流行的不太一样,要抓住这个热点的话这个系统就很有用,每天会出搜索云服,无限放大,看一级、二级、三级热点,主要关心的是这些可能会不停切换的用户搜索热点。


   另外还有音乐的播放器,这些音乐播放期在用户行为上是相关的,做文本分析的话这两个不影响,但是用户行为这两个是强关联的。


       flipkart是印度当地的电商,跟它相关的是亚马逊,另外还有gmail,旁边还有几个二级热点,full games,其有类似于360卫士的一个手机软件。


   我们大体可以知道搜索网络可以帮助当地的编辑知道当地人民的兴趣。


   第二个例子是斗转星移,巴西站10月7日搜索长这样,直接放大看它的核心,再放大可以看到用户搜索的每一个细节。几个主题词有个minecraft,就是《我的世界》一款游戏。中间地带porno,色情词,在巴西是合法的,当地民风比较开放。往上是火影忍者,再往上imo,即时通讯软件,类似于我们的微信,社交需求哪个国家都有。右上方有个二级社团,这就比较有本土特色,是巴西的一个乐队,跟巴西民风比较匹配。


   过了一周,10月14日,搜索云图长这样了。这两个不说了,另外一个比较大的是pes2012实况足球,这个图是2014年,但是实况足球是2012是为什么呢?因为实况足球2012年之后不更新了。踢足球的游戏,两年不更新巴西人民照样玩儿,可以看出来热情。


        jogo do halo还是动感音乐,过了一周,人们对音乐的兴趣度马上有了变化。


   一张罗网可以编制世界,上面几个案例背后的算法都是复杂网络分析,只不过用了不同的算法,不同的模型,用了节点重要性。也有社团划分,另外其有分析的东西,不同的颜色就是不同的社团,节点大小代表不同的重要程度,跟节点相关的词也是可以定义的。


   除了刚才的两个场景,可以把他泛化到其他场景里。比如说微博的传播路径,还有用其他的产品做搜索,我们可以看两个动态交互的Demo。


    第一个是可视化搜索网络,这是用的中国搜索新闻频道的词。这是去年8月22日的图,这儿有一个大的核心社坛,是中间的词“薄熙来”。另外还有一个词“王立军”“徐明”“大连实德”,都是跟薄熙来有关系的词。另外有些大家不知道的东西也被带出来了,比如说稍微小众一点的“刘亦菲干爹陈金飞”“济南中级官方网站”,这是你不太清楚的相关热点。具体搜索是什么东西?你可以点击这个词就出来相关的搜索。


   过了几天,8月26日用户的搜索热点就有了。下面这个还是“薄熙来”,但是没有4天以前这么热了。现在第一是“王勇春中石油”,看一下搜这个词的人还搜了什么“王立新中石油”“沈殿成”。用户行为本身产生的数据产品,有点拔出萝卜带出泥的感觉。有时候用户行为比检察院、纪委可能还要快,要是细扒的话有好多事。


       8月30日没有特别突出的一个热点,这时候热点比较散点“薛蛮子”“李天一”,用户在没有什么大的爆点新闻的时候就开始回归本性了,闲得慌。搜索网络放在不同的场景下可以看到很多有趣的行为,另外换一个场景,可以看其他的东西。


   这是微博的传播路径图,7千个节点,中间是个核心社团,是个船长的求救微博。当年有个船在公海在朝鲜截了,蓝色的点就是他的一级粉丝的核爆式传播,另外一圈是二三级粉丝转发,红色是大V的转发“新闻哥”,在传播路径中专发作用比较大的渲染节点。放大的时候可以逐层展现重要节点,这还有“盛大林”“恶棍村城管”。如果有背后微博昵称对应的资料库的话,可以直接链接到微博。我们还可以分析活跃用户,有相同偏好的用户,用户的ID也是可以展示的,用户ID可以直接关联到后面的简历库。有些用户搜到了某些词,可以直接看到是谁,在哪个学校毕业的。互联网时代,大数据时代大家慎独、自律吧。


   (3)用户挽留与封杀


   刚才大家看到的图是给内部人员用的,给我们的编辑、运营、产品人员看的,只是在数据平台上多了一个模块。后面两个项目是直接触达用户的:用户流失预警、刷金用户识别。这两个就没有那么炫的可视化图了,我们输出的是数据包括名单。用户流失预警都是常规的流程,你先理清楚问题,定义目标变量,做一些时间窗的选择,判断用户会不会流失。最后输出的是用户的名单和可能流失的概率,最多的是下角的“相关特征”,运营人员更关心快要用户有哪些特征,我才能决定用什么样的运营手段。除了流失概率,其他特征可能更有用。


   刷金用户识别,我们平台上有一批用户来刷金币,有一些免费发金币的活动,收集之后就在淘宝上卖给其他人。淘宝上买黑金的用户经常是沉迷用户,输不起,有跑来砸店的。另外进入平台有欺诈风险的用户,如果是电商平台的话有抓们抛羊毛的,羊毛党。所有平台总有一小撮坏人,我们想把坏人抓出来,但是这是一个不平衡的二分类问题。这一小撮在平台上的占比很小,我们就要先做前面的数据平衡,我们用时间差来平衡数据,就是正样本用一天的,负样本用一个月的。最后选择随机森林,第四步可以稍微有个判断,但是后面还有,要把整套解决方案的精度提高到99%以上,这个很难。如果做数据化算法的话,分类算法精度很难达到99%,但是后面有一套业务规则,先是扩大名单,再用IP、白名单过滤,用手机号注册的,可能觉得是好人的,全都过滤掉,留下的这批就是一键封号,这个对于用户的伤害会比较大。正玩着呢,发现是刷金的用户就直接封掉,以后也不能再玩了。


   他们可能会来找客服,客服会来找我们,所以要求我们每天误杀不超过20个。后面要把用户模型精度提高成这样,就是要靠搜索。


        3.体会与总结

   在具体业务场景中经常会看到算法的纠结与平衡,我们做一个分类模型,随机森林可能会给出一个结果。这个P值就是用户属于要流失用户的概率,默认的是0.5,小于0.5不会流失。实际上模型给出来的命中率和查缺率会达到75%左右。但是我不用,我们希望能覆盖到更多的用户,能留就留,挽留手段就是发金币,虽然费钱,但是钱是我们自己印的。只要流失概率大于0.2我就挽留,命中率只有到55%,但是覆盖率很高。不做这个的话,用户正常流失率是5—8%,做这个用户流失率提高10倍,相当划算。


   刷金用户概率大于0.9的时候我们才认定他是刷金用户,这就漏掉了大部分的刷金用户,但是没关系,首要任务是不能误杀,这个命中率可能达到90%,但是仍然不能满足用户需求。后面我们又做了一系列工作,一整套的规则,就是把误杀率降到1%以下,其实给的是绝对值,降到每天20个以下。


Tip:

1.不平衡数据分类,过采样、欠采样、SMOTE。


2.关于命中率,适时调整。


3.有效特征最重要。


   两个葫芦瓶,第一个是乾隆的,风格艳丽、张扬,据说是把当时珐琅能用的颜色都用上了。第二个是雍正的,就一抹天青色。我们做事情也是一样,你什么方法都上也可以,但是如果你找到一个有效的方法也可以,可以征服众生。


   任何一个有智力的笨蛋都可以把事情搞得更大、更复杂也更激烈,往相反的方向走需要一点天分,以及很大的勇气,这是爱因斯坦说的。我们也希望找到有勇气、有能力的人才,有意的加我微信。


   我的演讲就到这儿,谢谢大家。



   巴川:下面有请七麦科技创始人徐欢大美女,讲一讲人工智能方面的事情。



   徐欢:我先说个题外话,我昨天晚上从上海赶过来,我非常吃惊。在那边我已经看到了人山人海,今天在一个讲数据的会场,看到这么多的人,台上站的还是汉子和类汉子的徐女士,我非常感动,大家在周六很宝贵的时间来到会场,真的是非常好学的一帮从业者,我也看到了我们公司的人。


   今天我的演讲跟这个会场有些关系,也跟人工智能有一些关系,我的标题是“当AI人工智能与企业增长数据相遇”,会得到什么样的浪漫。


   大家对AI和人工智能非常熟悉,不管你懂还是不懂,这个词在满天飞。7月中旬开复和硅谷的钢铁侠埃隆马斯克、扎克伯格发生了一次辩论,俗话讲是撕逼战。钢铁侠同学认为AI对人类是威胁,开复说我不叫李开复我叫人工智能。他们两个在微博上,在文章上关于人工智能发生了辩论。


   人工智能这个词非常热,坦率地说,大家一定觉得离你们很远。我作为企业的联合创始人和高管,我也在想我们能怎么利用人工智能?企业如何利用人工智能发展和优化你的业务?我把我的思考和在业务上的探索分享给大家,如果你们企业也在关注人工智能,或许可以借鉴和参考。


   我叫徐欢,你们在本子上看到我的照片是长头发,让你们失望了,今年春也非常忙,我跟我的投资人,包括跟很多合作伙伴说我已经变成了铁T。创业让你整个精神面貌会变,可能性取向也会变,开个玩笑。


   这是我们的投资人李开复老师,我们成立于2013年8月8日,我们的天使投资人、A轮投资人都是开复和清科创投。我们旗下产品是ASO100,目前主要是做移动APP的大数据分析。我们平台上有全球400万个APP,包括跟JJ斗地主我们也是合作伙伴,很多做APP的企业了解我们公司。


   开复最近所有演讲的观点就是,人工智能是一个大趋势,人工智能是当前最伟大的魔法师。在座的各位可能你们跟人工智能是对立面,因为人工智能在处理数据,机器在处理数据,在座的分析师你们可能是“对立面”,但是这是不对的。


   你可能说我不相信这句话,接下来我会阐述一下。首先人工智能离我们真的很遥远吗?人工智能到底是什么?我用了一句非常通俗的话来告诉大家,人工智能其实就是用计算机来模拟人类的思维,进行预算、预测,业务上的操作。大家可以发现,这里面最核心的主体是机器,不是人,不是你我他,势必对人类的就业,业务冲击量包括你们的存在构成了一定的威胁,这就是在世的埃隆马斯克对于人工智能的质疑。他鼓吹人工智能必须被监管,因为不被监管的话对整个人类世界是个威胁。


   但是这样的观点对吗?难道人工智能真的离我们这么遥远吗?


   最近大家看到谷歌的无人车,就是人工智能。旁边是水哥,旁边是百度的智能机器人,下面是APhaGo和李世石的PK,都跟机器、机器人有关,觉得离我们好遥远。其实人工智能没有大家想得那么遥远,我背后的三张图,是2016年整个全年直播APP是400多家,今年直播平台剩下不到100家。移动APP行业竞争非常激烈,我很不好意思把明确的图放出来。


   人工智能无处不在,电商背后同样有人工智能,大家如果有关注亚马逊和天猫的话,每个人进去看到的商品和推荐的栏目是不同的。包括你上一次浏览的商品在下一次再打开,亚马逊和天猫的检索跟上次是相关的。上次你搜索的是小孩的产品,下次他就会给你推奶粉,这是数据挖掘和相关推荐,最浅显的人工智能。


   直播背后没有大家想象的那么简单,不仅是网红脸这么简单。直播背后的人工智能,首先是根据用户数据,用户到底是喜欢在白天登陆还是晚上登陆,他们会填充机器人的比例。现在直播你没有连4GWiFi观看人还在增加,这是bug。他们背后在做运营手段,我要根据用户的使用习惯来增加在线关注,让每个直播者认为自己在被重视、被互动,僵尸粉现在在直播里是很重要的。你可以吐槽它,但是这是一个必要的运营手段,任何社交平台都需要这样一个机器的调配,当他的平台观看人数不够多的时候。


   他需要对用户进行画像,以秒拍为主,它是做大V和明星的,大多数主播实际上是明星。映客还是在做大众的直播,还有花椒,以女性网红为主,直播的背后同样也有人工智能的存在。


        O2O产品,我相信大家对滴滴不陌生,早期抢过滴滴红包的举一下手。这是滴滴早期推广运营很重要的一部分,如果当你频繁使用滴滴的时候,给你红包比较少,当你离开一段时间,去抢的时候会抢一个大包。现在当滴滴和Uber胜负已分的时候,大家再也见不到滴滴的红包了。这背后是什么?是机器学习,是大数据运算。我需要什么?我需要用户消费,我需要用户进来。当我拥有用户的时候,我的赠送就会变少。我相信在座的各位与场外的吃瓜群众有绝然的差别,OFO送红包是因为跟摩拜单车还在竞争,如果胜负已分的时候是不会免费骑的,所以最近大家多骑一点。


         O2O产品背后同样有人工智能,这样说起来,人工智能其实已经存在很久了。推荐、挖掘、用户画像,听上去都是人工智能。


   我最终想得出的结论是,个性化推荐的算法早就有了,早期的人工智能已经存在,为什么人工智能最近又被提起来,尤其是在2017年。


   这个图有点难理解,“我”代表人工智能,底下是时间轴。人工智能的概念在1956年的时候就被提出来了,它出生在美国。每次人工智能的学术报告和研究逐渐增多的时候,一种声音就冒出来,天啊,人类要毁灭了。当到达峰值的时候,大家又开始减少对人工智能的关注,所有人都会跳出来说人工智能是大骗子。这样一个循环,今年已经到了峰值,2010年之后人工智能又出现。声音升量增大的原因是因为深度学习技术的出现,这是真正改变了目前人工智能的一个决定性的因素。


   深度学习是什么?卖个关子。人工智能实际上是由三元素构成的,在座各位想知道自己的公司是不是在做人工智能,你应该看看你们公司三大元素是不是都具有。


1.海量数据。用户量决定了数据量是庞大的,包括刚才演讲的猎聘,数据量也很庞大。


2.运算能力。后台架构,计算机的存储和处理能力。


3.深度学习。深度学习现在是核心要素。


   深度学习是什么?它的核心其实是计算机能够从数据的规律当中找到一定的技巧,从而能够深度处理到下一个环节。所以大家可以发现,它实际上是一个平层的操作,所以深度学习的概念是说,当你给我大量的数据量的时候,我可以通过中间层次的运算和学习给到你最后的答案。你会发现,深度学习的核心在于你给它数据,它能够最终给你答案。


   如果大家对深度学习有兴趣的话,现在创新工厂的人工智能学院已经在做培训班了,针对在座的数据从业者开放,有一个深度学习的培训班。


   现在的巨头都在纷纷布局人工智能的领域,在座的各位适时补充一些人工智能的基础知识了。如果当热点已经达到峰值而你们还不知道的时候,在座的各位真的是有危险。


   国内的公司,腾讯、百度、阿里,他们都在纷纷布局。腾讯主要布局的是智能硬件,百度是现在大家听到比较多的,语音识别、自动驾驶、度秘。巨头已经在这个领域告诉我们一个声音了,就是人工智能是下一个风口,而在座的各位想要抓住风口的话,是时候进来了。


   结论是,人工智能离我们不遥远。


   人工智能就是去学习我们的运算能力,把我们的机器存储和计算能力变到最大化,这样就是接近了人工智能吗?我认为其实这个不对,作为创业者,我认为大家和大巨头在布局人工智能,都是布局的底层结构,比如说平台化,计算机运算,计算云等等。创业者能够怎么做?创业者应该就是在垂直领域去做。比如说把人工智能的技术应用到具体的场景里,人工智能能运用到他们和玩家之间更好的挖掘和分析。把人工智能技术应用到企业数据增长领域,这就叫人工智能+,我认为这是下一个风口。


   最近的风口是互联网+,下一个人工智能+,你们所在的业务将是一个风潮。


   当人工智能遇到企业增长数据,首先企业增长领域,企业经营的终极目的是什么?可持续、持续性的盈利。持续意味着增长,所以企业任何经营和管理的目标是为了得到可持续性的增长。而你们能不能帮助和接近企业的核心领域,我们切到了企业服务中的增长领域,很幸运。


   大家会发现,人工智能在运用机器的大量运算处理数据,并且得到数据的结果和规律。这里面你们会发现,很多数据分析师在做数据整理和数据挖掘的工作,实际上被替代了。你们的工作能力、工作价值被替代了,最近有一个观点,埃隆马斯克和美国一个教授提出来,未来美国720个职业,将有47%被人工智能替代,在中国会有70%的职业被人工智能替代。


   第一个职业是翻译,其次是记者、助理、保安、司机、销售、客服、交易员、会计、保姆。

我知道有个e后台,就是帮助中小企业取消设置会计这个岗位,可以由第三方来做,甚至可以由e后台的机器人会计来替代。大家一定会说现在有很多问题,但是想告诉大家,这是一个进程,未来可能会计在收缩,剩下的是优质的,很棒的,技术能力过硬的会计。


   我之前去美国的时候特意参观了一个大厦,他们没有保安,保安全部是人工智能,而这不是机器人在门口欢迎你回家。他们人工智能的保安其实是摄象头加门禁卡,所以人脸识别做得非常棒。每个人进来,即使你化浓妆,即使你当天去了韩国整容,你回来这个机器依然会把你识别出来,并且能够给你开门禁,一路电梯通到顶。但是依然会有bug,因为对黄种人的识别能力不够强,他基础数据太少了。


   哪些职业不会被替代?第一类是创意工作者,导演、策划,比如说制作创意短视频,摄像、摄影都是创意工作者,这是机器做不了的。机器只能在数据盒子里做规范性运作,而跳出盒子是必须人来做的。各位从事的工作有挑战和有创新性的时候,请敞开怀抱迎接这些创新。改变反而会体现人的价值,这是我个人认为的。


   第二类是人际连接者,在座的各位你们来这儿是为了认识行业从业者,销售、滴滴他们都是人际的连接者。


   第三类是复杂模式的判断者,就是高级运营师和高级分析师。企业首席增长馆在我看来就是第三类人,CGO。


   人工智能未来到底是为我所用,还是我为人工智能所用?这也就是埃隆马斯克和开复核心的争辩点。其实埃隆马斯克的观点在很多人看来是有谬论的,谬论主要的核心在于人工智能最终还是工具,因为机器需要人搭建,它的运算能力永远只在一个基础数据里。所谓的深度学习,也不过是基于海量的数据做处理和下一步运算。AI只是一个工具,而埃隆马斯克却把AI认为是像世界大战和星球大战里面的样子。那只是科幻片而已,我们生活中的AI没有这么大,它只是帮大家减少数据分析、数据处理的时间。


   在座的各位如果真的在做数据运营,你们反省一下,你们每天做数据分析的时候是花了多少时间,是做数据整理。要把抬头规范,字体规范,格式规范,其实在做大量这样的事情,真正做数据分析的事情是少的。AI是帮大家处理前面的数据整理和数据梳理繁琐的工作,我个人的观点跟开复是基本吻合的。


        AI在未来3—10年里,将极大的改善大家的生活质量。为什么?因为会把大家从繁琐的、无聊的、单调的数据搜集、整理的工作中解放出来,让你真正成为数据分析师,真正成为把数据加以分析的人。


   我们ASO100平台上有400万款APP数据,每天会有各个互联网公司分析师来到ASO100网站上,查询APP的下载量,关键词的排名,包括用户的评论,每天的查询工作量非常大。我曾经跟接近100位用户做过线上和线下的面聊,我说你们每天的时间里到底有多少是真正做分析,多少是做数据整理。得到的比例我自己大吃一惊,8:2。80%做数据的查询和整理、下载表格,20%做数据分析,非常可惜。


   我们做了一个AI实验室,不是想切无人驾驶、保安、翻译,我们只想做一件事情,就是把我们平台上的400多万款APP,近亿条的数据,通过一键可以帮助分析师生成出来恩,甚至我们可以自动帮他进行运算。当你输入APP名字,加上APP竞品,我们可以自动帮你制定你APP的投放和优化系统,而你只需要告诉我们,这样一个方案和这样一个结果好还是不好,你希望怎么改。


   我们做了两个产品:


   第一个产品是AI关键词优化师,就是直接帮助企业去做它的关键词方案,只需要三个输入就可以实现这样的操作。算词、定量级就是基于现在的深度学习和AI技术,帮助很多的人从繁琐和重复的工作中解放出来。手机端现在没有这个功能,大家可以到PC上搜索ASO100.com,你们可以看到AI关键词优化师,体验一下这样的功能,我相信可以给大家带来一些想法。这是我们微信的二维码,大家可以去体验。你们对你们身边的什么产品感兴趣,可以体验一下这个功能。


   当人工智能遇上移动互联网,甚至遇上企业服务领域,我不认为挑战居多,我认为是新的机会。这个机会是好机会还是不好的机会?其实没有定论。如果企业和在座各位能抓住机会,我会认为它是好机会。而如果在座的各位被这样一个潮流和热点抛弃,我会认为它是一个坏机会。


        ASO100在人工智能的应用层面我们做了自己的尝试,这样的尝试可能是好的也可能是不好的,期待大家拍砖,也期待大家更多关注。今天是第一次有缘跟大家结识,希望今后有更多的机会跟大家交流,谢谢各位。


巴川:谢谢徐美女给大家带来的高大上的大数据加上人工智能,谢谢大家的捧场,尤其是站着的和坐在地下的同学。下面有请中国数据哥彭总,我就不多做介绍了。



   彭作文:我觉得大家太热情了,美女也看完了,人工智能也听了,大家怎么还不走呢?我网名叫“中国数据哥”,还有一个网名叫“中国红包哥”。平时有两个习惯,一不小心就喜欢发红包。如何赚钱的方式告诉你们这是最好的,你们身边有没有这样的朋友和这样的老师,他直接告诉你我这合同是怎么签的,钱是怎么赚来的,是如何增长的,这样的方式大家要不要?


   我看了演讲嘉宾,又是帅哥又是美女,又是来自于很多大公司的。我一会儿要分享的主题,其实就是把我如何通过大数据的赋能,做一些分行业的应用,如何做到在两年的时间把公司的估值由5千万做到今天10亿的估值。同时在2016年的时候,我们有幸获得了3500万PreA轮融资,两年前我跟韩成老师认识的时候,那时候做公司做得非常累,头发也做白了,打算5千万把公司卖掉。后来一跺脚、一赌气又继续往前做,有了今天这样一点小小的收获。


   我给大家分享的是“大数据分行业,方显大价值”,刚才徐欢美女说得非常好,当大的企业在做生态,我们比较小的创业型的企业该怎么做呢?里面讲了要专门做垂直行业。2015年很热的时候,我直接定义到大行业分行业应用,我在后面的商业逻辑里全部是在做分行业的应用。



   这是发红包的群,看大家的兴奋度和掌声来发红包。我创办的企业叫中科点击,写了一本书《大数据分行业大解析》,在中国大数据的定义也是我斗胆的做了一个定义。最近被软件协会大数据应用峰会封了一个小芝麻官,应用峰会的会长,我也来讨好一下分析师,要不你们不选我。


   我快速过一下我们的收获,资本市场的认可和客户的认可是最重要的,所以在资本市场上,我们在2016年获得3500万PreA轮,最近又获得行业巨头投资方和政府方1亿的融资。我们的核心举措,关于公司这一块就快速过了,我们会定位到做分行业的应用。这里面有两个关键词,人工智能来了之后也可以做人工行业的分行业应用。在座的分析师也一样,如果你是数据分析师我也是数据分析师,就没有什么特点。你是某个行业很牛的分析师,这个行业一定是超大体量的行业,这才有特点。


中科点击为什么在大数据分行业领域里有一定的优势?


1.数据。


我们10年累计了1千亿数据,同时互联网上最优秀的一款爬虫产品就是中科点击的军犬爬虫,大家进群也可以来找我们要爬虫,用于研究的话我们可以免费赠送,这个爬虫每年授权四五万。


2.算法。


很多都是文本数据,我们里面有一个遗忘算法,这也是在刚刚过去的数博会上,中方派出了几个黑科技团队,就是用的这个,最近京东金融也全面启动了遗忘算法做工作。大数据企业里,没有数据的大数据企业都是耍流氓,没有大数据应用的企业都是耍流氓。我们人工智能也一样,你率先把人工智能用于做APP的优化,我认为就是找到了点。


3.创新策划。


4.执行力。


5.人才。


   行业级的平台,中科点击的业绩是怎么构成的?我会快速的过一下。这是我们的案例,会分成几个类别给大家讲一下案例。我先从几十万的案例讲起,因为签这个合同是个几十万的案例,后面还有几百万的案例,还有我们做的行业级的平台是千万级的,这些都是跟数据分析密切相关的。大家不要纯做数据分析师,有机会联合我们做一个行业级的平台,我会播报行业级平台是如何快速做成,拿到最好的价值的。


   第一个案例是智能客服机器人,不知道算大数据还是人工智能。我看到很多公众号都有微信号,不管是政府的还是大企业的。他们的微信服务号动辄几百万人跟他们互动,有这么多客服人员来对答交流吗?我问汽车之家的运营情况,实际上公众号是没有去运营的,没有回答的。所以我们就用了遗忘算法结合数据做了自动应答,这是解决的第一个工作。


   比如说你问二手车频道在哪里,常见的问答,都可以直接给你导向到相关的页面。完成了自动客服的工作,除了这个还不满足,我们还从大量微信的对话问答里挖掘了大量的销售线索,而一个销售线索我们转给4S店,就转化为500—1000的价值。如果每天转换1万个销售线索,大家知道能产生多大的价值?产生上百万的价值。如果从百万里面再说,因为提供了服务,我收10%的佣金,这个合同就被我们签下来了。


   同时智能客服机器人,我们也在进一步深入结合遗忘算法,结合AI、语音识别,在做一些深度的智能应用。这是价值80万的小合同,加上分润的收入。


   第二个是量体裁图,不管是APP还是互联网,它有大量的UGC的内容,不光是上传文字,还上传文字。可是问题来了,上传图片不管是10兆、20兆还是50兆,网民PC的功能也不够强,就直接往目标平台上上传了。我们就分析,它从互联网上传还要自动匹配移动互联网,要不然得传两次。我们看到这个痛点以后就做了机器学习的算法,用户上传一张图片我自动分析,这里面的技术就来了。


   比如说在座的美女上传一个旅游的照片,开了一个好车,拍得也很漂亮。但是我们这个图得把车框好,人个车都得识别出来。识别出来之后还得根据PC端和移动端再去做自动的适配,这个项目我们又拿下小一百万的合同,大家觉得这是不是一些应用的点呢?


   昨天我还在跟内蒙的领导说,大数据企业到底赚钱吗?我说别的不太清楚,但是我们算是少数找到赚钱之道的一部分的大数据企业。


   第三个应用是4S店精准获客。它把厂商的车推给客户,是最后一个环节。大数据的精准应用就是精准营销,所以我们在想,如何给4S店引流。不管是大数据还是人工智能,我们摸清一个道道,只要你能帮他赚钱,怎么分钱都可以。当我和你一起做事情,不管你今天认不认识我,不动你的存量,而是做增量,赚钱对半分,他肯定非常高兴。如果当你能和别人一起分增量的时候,你的合作伙伴是非常开心的。我们针对大的客户,精准营销方面我们都是做增量、分增量的,其中精准营销就是通用的法宝。


   还有一个应用校园印迹。我们在大学四年,或者研究生加起来六年时间,你毕业以后数据是不是没被带走,还是归学校。我们针对学校就做了一个产品,让你大学毕业之后,把你在校园的数据全部带走,并且做成很好玩的方式推送给你。比如说你洗过多少次澡,上过多少次图书馆,去过多少次球场,以及这4年尖谁和你最亲密,谁经常跟你吃饭,一起去宿舍,这个人不是你的女朋友就是你的好基友。45天左右就给一所大学打造出来了,学生毕业的时候都得到了这么一份礼物,他们觉得太开心了。还有他们军训的照片,他都没想到学校会送给他这样一份礼物。


   关于学校的应用,做教育大数据,我说我全是想出来的。关于高校的应用我想出来了十多个,每个应用都让他们买单,这个小项目就是50万的项目,大家想一想,如果我拿下来50所高校,100所高校,能不能给在座的分析师发得起高工资?肯定发得起,这是学校的情况。


   第五个应用,舆情大数据压力监控。和京东金融合作的产品,用数据分析每一个京东的产品的特点,通过产品再匹配到京东的供应商,同时判断这个供应商的金融价值。这是京东从全国50个厂商里,通过技术PK出来的。


   第六个应用检察院大数据。人工智能也好,区块链也好,大数据也好,我们不要分得这么严格。有一些联动工作数据就要打通,面临着你的信息好,但是别人传过来的是纸质的文件。从公安传里一个案卷的卷宗,我们就用技术进行OCR的识别。识别这一块我们原来也没怎么做过,也没谱,但是通过我们数据能力和运算能力,奇迹发生了。我们识别的准确性居然达到了95%多,客户自己说基本上达到了世界最高的水平,突然捡了一个宝一样的。


   大家在网上可以搜到山西检察院做的会议,其实这个会议就是来验收整个产品的成果的。我们从50万的项目费用做到了200万项目费用,并且还是区级检察院,中国有多少区级检察院?3千多个。所以我要给在座数据师分析行业的小伙伴们鼓鼓劲,这个行业前途无量,并且不会被取代。


   刚才这些应用都是百万级以下的应用,接下来我说一些千万级的应用。我在省厅级单位有一个质监大数据的项目,什么样的商品又下架了,我们还在超市里有。这些数据根本没有到达B端和C端的手里,我跟这个单位进行两天的策划,客户愿意把1675万合同交给我执行。整个里面的核心应用切入点和场景的寻找,我们只用了两天的时间策划出来了。


   科技大数据应用,很多公司每年有常规的盈利渠道就是向科技部门申报经费。我去了科技部发现,全国都在申报,我就做了科技查重和科技查新的平台。这个人是重复申报的话,钱就不给他了,这个项目也是得到了全国科技部门的推广。从此他们判断科技申报项目的时候就可以应用小人工智能了,这里面一个六个界面,也是千万级的项目。


   这是行业级的平台,我们一直在做项目产品化,你现在让我做项目也比较盲目了。项目如果能产生化就非常有兴趣,核心的关键词是做企业能够盈利,能够发展,核心关键词就是复制。你做出一个产品,能不能被很多单位用?你的产品复制性有没有?


   我项目做产品化,只是完成了一个软件的动作,接下来产品一定要平台化,由卖软件变成卖账号的模式。平台还要大数据化,大数据和人工智能来了以后,当一个软件公司碰到大数据企业简直是弱爆了,如果你们是老板的话,要考虑转型和大数据人工智能的赋能。


   软件是做业务流的,几天就给你模仿了,找几个很牛的码农。大数据有算力,有数据,我任何客户对象马上能联系到决策者,这是数据的能力。所以软件公司在大数据公司面前真的是弱爆了,并且在定义大数据层面里DT是包IT的。当然还不能说大数据、人工智能能够颠覆互联网,但是大数据、人工智能优化互联网和赋能互联网,这是绰绰有余的。


   所以平台大数据化了以后再怎么样?再品牌化,在运营,这就形成了我们的价值。


   慧数汽车平台,我们用了三个月的时间,做了行业级的平台。汽车行业的门户是汽车之家,我们在一百天之内拿到了汽车之家一千万的天使融资。我们客户直接针对汽车厂商进行分析,在座的分析师有没有在咨询公司做报告的?你们的数据怎么来的?咨询行业尽管有一些数据来源,但是很多数据还是凭数据分析师的想象。要有真正的数据支撑才是真正的数据报告,我们抢了很多咨询公司的饭碗。因为我们数据直接来自于汽车之家的数据,以及我们整合了十多个泛汽车领域的数据,包括银联的POS数据,车驾号的数据。数据的判断来自于某一句话,这个产品已经服务了17个汽车厂商,刚刚拿到了林肯的合同,369万服务10个月,平台才20多人。我们在8月份能完成A轮融资,估值4亿。


   中科点击是做分行业应用的,到底有多少个行业值得去做?360行,行行都可以做大数据。我是最先倡导行业大数据应用的,昨天我去内蒙,他们让我做草原大数据,这个行业根本没人做,所以我一做就是第一名。

轨道交通大数据,一条轨道线有300亿,10%用于做信息化,10%做大数据,全国像这样的线有200多条。我们分析师一定要把自己所处的行业给分析好了,我们光给客户分析,没把自己的职业生涯分析好,那是很大的损失。


   分行业还有很多,我们现在已经进入到了20多个行业,就像生小孩一样,不过生小孩不能并行,我们可以并行着来做。三五个很也的团队,包括分析师的人,你懂旅游我就传旅游大数据,你懂物流我就开始研究物流大数据,你懂房产我就研究房产大数据。房产行业太大,我做细分,我做新房、二手房、拆迁大数据,我分析这一片儿到底用多少亿能成功拆迁,我给政府节省50亿拆迁费,我拿5千万行不行?


   我今天说的比发红包重要吧,招投标也一样。现在只有一个平台“千里马”,这在我们大数据面前弱爆了。招投标环境跟政治环境非常相关,跟领导也相关。我们做这个平台解决让大家中标更容易,你别去死磕,别去陪标。你中标最好的捷径,给他做个供应商,你在北京工作的时候,人家在那边跟客户歌舞升平,你怎么干得过它,这是招投标的智能分析。


   这个平台是被贵阳的创投,按照6千万的估值投了,投了1千万,占了1/7的股份。


   招商大数据,平常求这些领导办点事挺难的,一把手都得出来吃饭喝酒,跟我们一样拼命。因为他求发展,求招商,找到板块、企业、人很重要。这个地方要发展大数据行业,我给你对接人才,有几百个、上千个会组团去。


   大家可以查到中标信息,我们没上线呢就被天津泰达中标了。我们产品有好几支基金,直接开出一亿的估值,也仅仅用了不到一百天的时间。


   教育大数据,刚才跟大家讲了一些案例。我精准的服务于高校,有2600多所高校,加上4000多所职校,六七千个客户对象我就足够了。大家看我做分行业大数据,为什么大家不认识我呢?是因为我从来没给你贡献C端的产品,全部是B端和G端的产品。汽车平台为什么会很快的估值这么高,转身一变就2G、2B、2C了?因为我们分析得太清楚了,你构成用途不一样,选车就不一样。政府端的你一定买奥迪A6,如果是为了泡妞,把车开到中系或者北影的,你肯定买拉风的车。


   每个地方买车的特点也不一样,华东地区买个车考虑省油,路虎在西北卖得就特别好。我们在9月份推出一个产品“慧选车”APP,按照自己真正的想法选车。


   还有金融平台只服务于银行,所有行业级平台要不被投资了,要不就正在被投资的路上。


   其实这种案例非常多,我每天做的一件事就是做一个能源大数据,来策划一下,基本上一个平台大数据要花两天策划,出来基本上能成为行业级起码有一定价值的产品。昨天我去了蒙牛,蒙牛如何做大数据?最近我连续参与了文娱大数据的策划,广告大数据的策划。广告行业有很大的公司叫紫罗兰,我也参与做广告大数据的策划。


   大家想不想知道案例背后的逻辑?经验的总结要不留到下次。

        1.行业细分。


   这个细分可以做到一级细分、二级细分、三级细分,一直要找到你是第一的那个行业。


        2.找准切入点。


   不管是做大数据还是人工智能、区块链、量子通信,很多战略新技术都会发生,我们要找到应用点。什么叫应用?就是踢足球我只踢前锋,不管后场球怎么开过来的,我只往守门员的方向狂射。所有你想要的技术,全球都在为你提供,你还想我能不能研发一个什么自动驾驶的技术,你发现伟大的百度和谷歌会给你开源出来的,你还用担心吗?用就好了。


   找到切入点,很多人都喜欢找痛点。不只要找痛点,你找我的痛点我很难受的。到医院就是找痛点,我是必须要切除小肿瘤,我忍痛让你切了,但是我交的费是不爽的。你要找痒点,各位男士到KTV多高兴啊,800块钱一个小妹。痒点就是给政府找他的量级,给政府做增量的政绩工程,他肯定会很喜欢。很多做大数据的企业,为什么他们到客户那儿不受欢迎,我到客户那儿受欢迎呢?这个数据打不通,这个那个的说人家,信息中心下来恨不得拿刀子捅他,这几十年我白干了?所以做东西人家不配合。我做痒点,我把成果都包装给他,他肯定很喜欢跟我玩儿。


        3.标准化流程。


   做软件行业的不知道老板们有些什么感受,很多IT老板有个特点,这个产品什么时候能开发出来,下面的研发人员说3个月。你3个月再看的时候,他说对不起还要6个月,6个月的时候说还有点bug。程序员招聘也挺难的,你想杀了他也挺可惜,但是机会没了。


   我们有100天倒计时,不管这个事多难,100天必须上线,所有绩效考核全按照这个来。如果100天上不了线,我就“杀”了你,100天能上线我就让你去happy。我所有客户的项目,我自己做的平台,人也少,100天也准时上线了。有句话说,挤一挤也会有的。


   如何做到标准化流程?行业大数据平台我分成了16个任务包,196个节点,100天上线。你不用东想西想,你就按照这个节点和步骤原封不动的执行就好了。


        4.关于应用场景。


   我去年写了一本书,今年也在写一本新的书,我把大数据的场景和切入点完全找完了,9大类型,20大方向,34个应用场景,150个切入点。最后变成了客户做选择题,开始客户还说你懂我这个行业吗?最后发现都在我这个框框里。其实这些东西是宝贝,150多个切入点当然写书也不能全写,今年这本书还是会写一些的。


        5.客户导向。


   我会判断客户的需求有没有共性,同类型的客户会不会多,如果只是一个客户,行业里就这么一个需求,你给我三个百万我也不会接这个项目。如果一所高校找我做这个项目,有2000多所高校我也就接了。如果有二三十个省厅级的单位,可能我们会去做。跟选男朋友、女朋友一样,选择等于成功。


       6.产品驱动力。


   大数据应用产品,产品是有驱动的,你为什么做这个产品?所以我提出了数据驱动、应用驱动、技术驱动、业务驱动、项目驱动、趋势驱动、政策驱动,如果要详细讲的话能讲两天,告诉你一个产品是怎么无中生有整出来的。


   现在在座的很喜欢百度,我发现很多做产品的或者做创业的,就习惯什么事都去问百度。我招一个产品经理来,我说你怎么做的?他说我先搜百度。我提出来一句话,做产品不问百度问谁?问客户。我的产品经理是不允许他们搜百度的,你老去模仿,能模仿过别人吗?叫不问百度,问客户。我做每一个产品的时候,找出十个样板客户,把他们发展成种子选手,给他们发红包,让他告诉我这个需求。


   我做房产大数据,把住建部的市场监管的信息化最牛的人请成我专家了,十个红包搞定,他就会变成行业需求的提出者。做产品我们需要什么?放开电脑,我们静静的在这儿想,原创。如果实在想不出来了,我们再发红包,再让他想。


        7.数据能力组合。


   调度大数据基本生态的能力和人工智能相关的能力,为什么你能一百天做一个产品?实际上我们是经过了十年的沉淀,现在我做产品是搭积木的做法。连一个对话框、登陆框、短信的接口都是进行的组合。最近我们有一个合作单位,看到我们的模式。他说我要做这么一个行业级平台要花两年时间,我说两年时间基本上黄花菜都凉了,现在是3个月产品如果不上线都不行,天下武功唯快不破。


   我简单分析到这儿,我也是掏肝掏肺的跟大家讲,谢谢大家。



   巴川:非常感谢,军犬舆情做得还是很不错的,大家有兴趣可以加彭总好好聊。再次感谢各位,都饿着肚子站着听。




使用道具

藤椅
西门高 发表于 2017-8-11 14:00:07 |只看作者 |坛友微信交流群
谢谢分享

使用道具

板凳
军旗飞扬 发表于 2017-8-11 14:08:34 |只看作者 |坛友微信交流群
谢谢楼主分享!

使用道具

报纸
zishengzheqiang 发表于 2017-8-31 13:59:47 |只看作者 |坛友微信交流群

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-23 23:10