这几年创业、创新团体比前几年好很多了,我说好很多并不是说国家支持,双创这些。而是说现在的一些软件、工具也越来越成熟,前几年我们公司报表还是自己去写的,现在越来越成熟,对于创业企业来说可能不需要专职的人就可以把这些东西做好。在敏捷的数据分析团队中应该达成几个方面的要求:
1.易探索。像开车一样,不应该只是有一个仪表盘显示水文箱高还是低,速度快还是慢,而是应该有人去分析探索自己团队做得好不好,而且在此基础上进行改进,应该给业务分析团队做一些探索。
2.性价比,这一点当然也很重要了。
3.自助式。数据分析团队理论上是为所有人赋能,让团队中的每一个人都能成为数据分析师,而不是把数据分析能力禁锢在自己团队内部。
4.快快快,这是我反复强调的。
能做到以上几点,才能被称之为优秀的数据分析团队。
我们可以分享一下我们平时做的比较多的工作。
1.关于默认埋点。
我们小团队可能跟大公司不一样,对于所有的工程师来说,最烦的一件事就是埋点。产品改进中,一个产品迭代之后你发现原来埋了一个点,由于功能变更这个点不见了。在我们公司里面做数据分析,大部分的数据结论探索最好都是线上生产数据库中既有的,比如说年龄、性别,包括用户账户余额。在我们公司所有的线上数据都会在备份库,百分之六七十的需求都可以在这里做探索,这就避免了大部分的埋点需求,这样优先级就会弱很多。
2.不要迷信大公司。
我们请了三个数据分析师从大公司出来的,这是刚开始,从大的团队中出来的人可能有一个小小的问题,他的全局观会弱一些,越专业的可能这个问题越严重。有些人只做某一方面,可能在用户点击率做得非常好,但是很难有全局的观点。这样的人跳槽到创业团队中,这就会跟团队文化和团队需求有点冲突,这是我对创业团队的忠告,没想到今天来了这么多专业人士。
3.竞争情报分析。
对于大的企业来说,会把这方面的工作外包给第三方团队,或者直接在市场上买一些报告,大公司有钱当然可以任性。但是对于小企业来说,竞争情报分析非常重要,他买不起这些情报,网络上卖的一些数据分析报告是非常贵的。大部分的分析报告水分怎么样,专业人士会有判断。由于我们所处的行业和项目,都是比较新的,市场上第三方数据分析很难对新项目产生报告。
对于创业企业的数据分析团队来说,就要承担起这样的责任,如果在大企业工作的数据分析师,很少人会涉及到如何采集竞争对手的数据。对于一个创业团队来说,你甚至要具备一点分析人家的数据,甚至黑客的手段采集数据,这样对公司的帮助是非常大的。
今天我的分享就到这儿。
巴川:对于人人都是数据分析师这个事是一个梦,如果这个梦实现了我们就没饭吃了。下面有请猎聘网高级数据分析经理李国建先生,讲讲“人力资源大数据在招聘领域和经济领域的广泛应用”,有请。
李国建:大家上午好,我来自猎聘,专门做数据分析的。刚才听了王总讲的,各位是不是有点怀疑人生啊?自己做的事情是不是没有意义啊?不同阶段的创业公司对数据分析的应用和重要程度的确是不一样的,如果只看日常数据的展示或者报表没有问题,但是如果想测量一下活跃度,未来这个人的价值,可能还是需要复杂的模型做支持的。
今天我花一点时间讲一讲人力资源或者招聘领域的大数据,如何在业务层面发挥作用。
猎聘是关注中高端招聘的平台,我们专门有一个猎聘大数据研究院这样的团队,会做前期数据的处理,包括数据分析师团队,是一个麻雀虽小但是五脏俱全的数据分析团队,包括目前的数据量,支持大家心目中想做的数据模型和数据分析支持。
目前数据的储备企业有50万家,大家能想到的,在这个领域Top几百的企业都是我们的客户。我们还有30万左右的猎头,3600万精英数据,这个就不细讲了,因为时间有限。这是我们做大数据研究的一些方法,猎聘跟普通的电商数据不太一样,我们除了有自己用户行为数据,还有集约化数据之外,还有很多文本非结构化数据,我们有很大的团队是处理这些文本数据的。
下面重点讲一讲我们在招聘领域,人才大数据到底是如何发挥作用的。包括两位老总都提到了,数据在各个公司发挥作用其实有几个阶段。
现在大部分数据分析师都在做这个事情,就是做需求。需求有可能来自产品,有可能来自品牌部门,还有可能来自销售部门,因为它都需要拿着我们的数据发挥公司的优势。在这个层面,用数据支撑现有业务,是目前数据分析师占有80%以上的工作量,非常有意义。这个事情我今天就不讲了,大家都懂,而且包括A/B测试、归因分析,都很常见。
猎聘3500万用户在用,每天会产生1亿—2亿日志,数据已经变成了资产了。这些数据怎么在公司发挥作用?可以通过数据分析师形成一些直接变现的数据产品类型,这可能是我们数据分析师下一步要考虑业务的关键点。我永远是在支持产品部门、运营部门做数据支持,没问题,这是现代数据分析师必须做的事情。但是在公司里让数据团队发挥价值的体现,这可能是另外一个维度。
1.简历透镜。
“6·16”我们正式推出,它是数据驱动的一款产品。其实简历已经存在很多年了,大家看到的简历永远是一张纸,在网上是一页纸。一个求职者入职到一家公司有很多影响因素,能力强不强,能力跟我职位匹配不匹配,如果匹配,我是不是一定要到你公司来。这些我们网站的平台上都可以做,我们会把这些数据打捞成HR特别关心的点,而这些点是他多年来都无法解决的一些痛点。
当你看到一个简历的时候,可以告诉你其他一些额外的信息。比如说你的薪水是多少,这不是你的期望薪水,而是根据你的投递,根据你的期望算出来的。包括你所在的大学,大家对国内高校很熟悉,但是给你一个国外高校专业,你知道它的含金量有多高吗?如果你是一家制造行业或者其他行业找我,可能没有太好的待遇我是不想去的,因为我主要投的是IT行业。HR在给你打电话的时候就知道了这些期望,包括职场信用,你有多少次面试,面试的过程中有没有放鸽子的情况。
一到两年的HR工作就可以变得更高效,更有价值,这就是我们刚刚提到的,从所有数据里提取出来的,这是可以由数据部门来主导的事情。
2.职位透镜。
在座的求职者如果看一个职位的时候,特别知道这个HR到底有什么偏好,是不是只要985、211学校的,是不是只要来BAT的。我们求职者也想看一看HR是什么偏好,这是一个。另外这个职位已经存在这么长时间了,是不是有很多竞争者都投递了同样的职位,我的竞争力怎么样?匹配度怎么样?这是求职者想知道的信息。投的任何一个职位,都是想要有反馈的。
HR给你反馈有很多原因,首先你能力要强,符合我们的要求。第二你在这个层面上,我认为你的条件是脱颖而出的。因为我不是招500个人,只招1个人。所以我们会给求职者赋能,让求职者变得更Smart。这个职位可能每天投敌非常多,HR活跃度也很高,那对于给你反馈就非常有帮助,你就有一个基本概念。
3.职位难易度评估。
HR发布一个职位的时候,其实他不知道职位在竞品中相比难还是不难。你职位要求这么高,没有这么多匹配你的人。你的职位这么普遍,薪资这么低,你还想招这么好的人。这都是问题。你刚一提交,就知道了职位难易度,这也是给HR做赋能,而且这样的产品会让你感觉到真正AI的体验。
你完成提交的时候,就会告诉你目前匹配度是比较低的,我要给你一些招聘建议。什么样的数据才能达到收费的标准?一定要轻咨询,而不是我简单的给你展示个信息,这个太简单了。我们只是做一个报表,这个东西太初级了,难易度怎么衡量?这是商业机密,我就不再介绍了,但是这里面有很多细节和模型的应用。
职位和人才简单的匹配,这个比较高端。如果大家用猎聘的话,会发现每天都会有猎聘职位推送,同样在HR端也有很多简历推荐给他,这种高效的匹配对于找工作和找人来讲都是非常强大的。对于HR来说,招聘场景越来越多,为什么一定非要在PC端呢?是不是在手机端也可以做?手机端写字很麻烦,那我可以说啊,我要求招聘的人在北京,是什么样的背景,说完之后自动给你匹配。
文字如何标准化,标准化如何进行匹配。不同的匹配度,不同人的水平,会让你发现。数据不是简单的支持现在的业务,而是有变现价值的,因为数据是资产。刚才看到第一个图的时候,可以告诉大家,以前猎聘的简历就是所有招聘网站最贵的,我们一百块钱一份。附加这样的简历透镜,我们可以提高20块钱。现在每个量要乘以20块钱,这20块钱是你所在数据团队提供的。
这是我要说的第一个事情,人才招聘领域如何用数据做所谓一些高大上的事情。
第二个事情再讲一下人才大数据在经济发展领域的尝试。
发改委就业人事司专门找到我们,要做一个精确发展和人力发展相关的模型。这个项目我们签下来了,今年6月份会把这个报告形成一本书出版,叫做《中国经济结构、人力资源和就业创业大数据分析》,具体内容后面会有,这里先简单介绍一下。
供需、流动、薪酬这些比较简单,包括就业质量,最后是人力资源经济指数,这是很有意思的。运营和产品都要会做的话,可能我们真的会失业了。很多都是直线联系,比如说我今天想看日活率,这个很简单。在座的每个人如何跟经济发展,如何跟GDP发展挂上勾?这个很难。
大家的思路一定要开拓一点,做人力资源模型的时候我们就考察了一些经济学的里冷,劳动经济学、宏观经济学,我们发现了很有意思的事情就是生产函数这个事情。我就不细讲了,他分成增长模型和道格拉斯模型索罗斯旺。Y是GDP,L是人力资本,K是固定投资。这跟人力资源完全挂上钩了,但是坑在后面。L在经济学模型里就是劳动人数,这个含量就低了。
我们做的时候把模型做了一个改进,这是分析师一定要会的能力,要把现有数据转化为跟公司最贴近的方式。我们扩展了一下,L原来是数量,现在加入了人才质量的情况,这时候模型含金量就起来了。这时候加入TEI指标,前后就可以有联系了。
很多人会说多元回归很简单嘛,但是如果我告诉你数据样本,比如说可以计算的GDP,可以用的GDP,从80年代到现在,四十多年。每年可以分到不同的省去,多少个省?三十多个。大家自己算一算这个数据量有多大,不管你是用多元回归还是传统统计方法,这个坑你肯定是埋上了,因为数据量太小。那怎么做呢?这时候就一定要考虑其他的模型。我们不用多元回归了,我们用的是固定的随机效应模型。
这个对于样本里面异常值是非常敏感的,对于GDP这样很少的样本,筛除很多异常值,确保这个范围。固定随机效应就可以消除刚才我说的影响,具体原理大家可以在网上看。我们用这个模型跑,但是发现TEI还没有计算,我们就可以开始算TEI。
除了TEI,其他所有数据都是来自国家统计局。但是资本存量它是没有数据的,只有每年的增量。资本存量怎么估算出来?我想强调一点,国家不会告诉你劳动力数量是多少,你就要找一个通俗的,能够代表劳动力数量的指标。经济要跟人力资源挂钩,这里面没有含金量,那我们加TEI进去。收集数据的时候坑又来了,大家只要把坑填满了,模型就非常完美了。
重点看看来自于猎聘的TEI指标是怎么做的,我们知道任何一家企业,任何一家第三方机构手里拿的数据都不是总体数据。猎聘可能有3千万数据,智联可能有其他数据,任何一家企业的数据都是样本数据。如果你拿这些数据分析你当前的一些基本状况的话,没问题,因为对于这个来说你是总体。但是如果想衡量北京地区经济水平和人力资源水平是什么样的话,是有问题的。
所以我们要做抽样,抽样有多少种方法大家都很知道,我们会发现什么样的抽样会让数据应用率最高呢。我们按经济第一、第二、第三产业占比去抽企业,用这种分层抽样。我们认为这些人力资源贡献了这么多经济总量,实现自动化抽样,抽样自动整合,整合成我们可以计算的一些数据,这里面又有很多工作量在里面。
抽样的时候分为B和C,TEI怎么做一个指标?很多指标都是现成的,有些是开发完的,有些是需要开发的,因为你要把现在的资源做好。指标调优、权重设计都要做,你可以问问自己知道多少种做指标的方法,有多少种做权重的方法,不是我拿一个方法上来就用,好多东西是需要内部做一些调优的。所以我们把这些东西做完之后,这个模型就已经初见成效了。
经济学上很专业,流行了几百年的衡量标准是α+β的值1上下。对于发展中国家来说,这两个值加起来应该是大于1的。对于国家政府部门来说,出来这个指标对它来说是很大的冲击力,我人力资源提高多少,GDP会提高多少。
今年我们又接了发改委另外一个项目,叫经济发展与人力资源匹配研究。随着大数据和AI技术发展得越来越快,对现有的一些行业是有一些冲击的。比如说自动驾驶这么好,是不是未来物流都不用司机做了,自动驾驶直接就过去了。连同声传译之前很高大上的职位都可能被替换掉了,国家非常想看这些值跟人力资源匹配,
看哪些会没有,哪些会突发出来。
这一部分讲的是数据在公司内部可以发挥很大的作用,同样这些数据在外部也可以发生,数据发生对公司也好,对个人也好,对所在的数据部门也好都有很大的提升作用,要不然我们做的事情永远是做浮脚标的事情。
这代表这个地区人力资源综合水平是什么样的,北京地区0.74,上海是0.75,这是国内两个最高的人力资源水平城市,这跟我们的想象基本是一致的。这里人力资源在不同维度做的分析,这个地区的人才质量、刘栋效率,不同行业和地区是不一样的,会给政府很多指导意义。东北地区人才流失,因为产业出了问题,产业怎么出了问题?人才流动太大了,可以在具体指标分析中得到结论。
第三个,人力资源大数据应用破局点。
公司内、公司外有很多人力资源大数据的应用,但是这还是在传统领域打磨。以前HR做的事情我让他变成更好,以前做的事情花10分钟,现在花1分钟。从我的角度来说,大数据不仅仅只是能做这些事情的。因为我们对现在的人力资源市场,未来的求职者会有一个判断,会为自己的职业生涯买单。
现在是企业主导,基本上是企业花钱,C不花钱。如果你找了非常好的工作,可能比现在的工资要提高几倍,我让你拿出一个月的工资来我们提供的服务愿不愿意?愿意的还是占大多数。现在中国人口红利在消失,中低端人才会被自动化、大数据和其他东西替代。这些人怎么办?要找工作啊。以前从农村出来去广东打工,不要去广东,因为广东人才已经过剩了,你应该去其他地方。你要去这个地方的什么行业?
中国有多少数据分析师?有多少数据分析经理?多少数据分析总监?越往上淘汰越高。数据师分析水平有时候觉得没自己高,可能是因为人家机会好,职业规划好。你需不需要这样一种服务,让自己的职场生涯更成功?现在知识付费非常火,罗振宇的《逻辑思维》,得到,几年时间净利润超过了几千万。大家愿意为知识付费,都愿意为知识付费了,为什么不为自己职业生涯付费呢?
B是企业,C是求职者,现在他们追求的东西是在变化的。对于现在的企业来说,我现在入职要非常快,招人要多,人才要匹配,薪资还要低。HR的工作量是很大的,招这么多人,还有这么多人离职,尤其数据分析师。以前企业看效果的时候,随着行业包括各个领域的人才逐渐处于平衡的时候,要提高自己的效率。我现在招的不多了,我只需要招到合适的人,同时薪资要更合理,只要匹配好就行。
以前招人非常难,现在投递的越来越多了,那我怎么高效处理投递的东西呢?简单一个个看肯定不行。包括C也是一样,C以前是很讲究效率的,投个简历HR给我反馈,职位选择要多,现在看十个都看不过来,因为你现在还处在找工作,选择方面你是强势的,入职的时候又弱势了。随着竞争越来越激烈的话,你想进行心怡职位入职的话,需要做很多事情。
同样做数据分析师,5—8年,10年以上分别有什么样的技能?你掌握了吗?掌握程度怎么样?我上升通道怎么样?我能不能从数据分析师转到产品经理啊?以数据分析师形式上去,到产品总监的形式上去,可能时间是不一样的,薪资增长也不一样,这对你职业生涯来说不关键吗?简历是不是也要定制化啊?我投大公司,大公司更看中什么东西?我投一家创业公司,我们对数据分析都不感兴趣,我为什么要花钱给你?你要投简历的时候是不是要体现能吃苦耐劳,我还可以做产品经理运营、数据分析还可以做销售。所以不同的职位有不同的要求,作为求职者来说不像以前千篇一律的投简历了。如果你还是这样做的话,你就是那个找不到工作的人,因为职位越来越少。
B要效果,C要效率的情况会逆转,这是我们的盘但。
我们做招聘网站都在做获客成本分析,当你是求职者的时候,我们特别想让你过来活跃。如果你是高质量的人就更好了,因为会产生很多价值。我把你招过来之后,你要给我产生价值,被别人下载就产生价值了。现在我们发现什么是永久用户?现在都在做中高端招聘,可能要几年工作经验,年薪多少以上才是我们的核心用户。但是这时候发现其实有很多牛的人,刚出来的时候是初级员工,不是我们所谓的目标客户,但是发现两年以后他就是了。
还有可能在学校里这个人非常牛,出来写简历也如此,我们为什么不把时间轴往前拉呢?哪怕你是应届毕业生,高二、高三的学生,是不是要尽快把你拉过来。有一个做校园互联网金融的,就是培养这些孩子花钱的水平,永远都是在透支。今天我透支吃顿饭,明天我透支换电脑,手里面是没有钱的。工作3年之后,终于把上学时候的消费还清了。这些人有一个特点,这种消费习惯养成之后是非常难改变的。如果我们消费从娃娃抓起的话,就是这样的,做贷款要从娃娃抓起,招聘为什么不能这样呢?
现在好多高校同学水平非常好,也不比你有3—5年工作的人经验不差,如果是单一领域的话。找工作你要来找我,看职场资讯找我,我们都在做横向的拓展。其实我们会往年龄成长轴上做,大一就让你用猎聘,告诉你职业怎么发展。
再延伸一下的话,为什么每个人都需要简历?我要写,还要修改,每年有新的工作经验还要加进去,很麻烦,还怕自己写不好。如果我们从上学第一天开始,所有数据都加到一个芯片里,一直积累到毕业,毕业工作之后,其实每个人的简历都不需要你自己写。包括职场信用、能力提升、项目,都可以在这里体现。如果是这样的话,我们还要写什么简历啊,企业的需求也是很格式化的,这就是在人力资源破局的思路。数据分析师如何提升自己的价值?这个是大家要考虑的。
求职者和用人方是数据的提供方又是数据的提供方,为什么数据产品可以做到有价值呢?就是因为目前的信息不对称在这个领域还没有这么好。比如说我要先买个产品,买个海尔冰箱,大家可能连海尔怎么发家的,当年砸冰箱的事情都了解。求职者竞争力怎么评估?一个人有很多抬头,做两年数据分析,做两年JAVA,能力匹配是不一样的。
你企业为什么牛啊?因为我跳进的时候薪资高,跳出的时候薪资还高。衡量一个平台的优秀或者不优秀,完全可以用数据去做。这个指标怎么设计?是数据分析师来设计的。在第三方同样可以输出数据价值,包括政府的一些数据孤岛,现在很多数据都是单独存在的。
我们平台发展得非常快,我用30秒做个广告,现在数据领域的各个层面我们都在大幅扩招,包括算法工程师、数据工程师、数据挖掘师等等,大家感兴趣的话可以联系我。我们这边有一个不成文的面试规定,我们老大一直觉得聪明人喜欢跟聪明人一起玩儿,如果你是聪明人的话可以来试试,这是很好的职场发展路径,谢谢大家。
巴川:谢谢国建的演讲,按照安排我们有5分钟的茶歇,5分钟之后我再把数据挖掘的话题往回拉一拉。
——茶歇——
巴川:我给大家带来的分享主题是“互联网用户行为挖据”,我是巴川,现在供职的公司是竞技世界。做的方向主要是数据挖掘,用户行为挖掘是一个领域。第二职业是在北航教书,之前在互联网公司工作过,竞技世界、搜狐畅游、乐视、中国搜索。主要研究领域互联网运营分析、产品分析、社交网络挖掘、推荐系统、数据可视化。
这是今天要分享的目录:数据挖掘项目的特点、用户行为挖掘案例、体会与总结。
1.数据挖掘项目特点。
我列了五条:
大数据、低价值。
现在大家对大数据都不陌生了,有4个V的特征,第四个V就是项目价值低。大数据、低价值对应的就是废品率高,很多数据挖掘项目都是在探索阶段,探索完了之后未必都有好的结果,十个有八个可能都是报废项目,有很多是解决不了的,现有技术手段解决不了可能会放弃。还有一些项目做出了一些结果,但是未必能推动到线上,是不是能真正产生价值有时候是要打一个问号,这跟前面王总吐槽各种各样的大数据是有关系的。
十个里面有一个能产生价值的话,都会远大于数据挖掘团队年薪的N倍,这还是值得我们去尝试的。
精准计算与超强容错。
如果大家做过类似项目的话,我们希望大数据能够预测得比较精准,但是在很多业务环境里预测的不那么精准,有时候预测不准的时候,就会根据你的业务场景,把目标、期望值降到合适的程度。有时候不是要求百分之百准确,比如说付费转化率提升几个点就已经很可观了。我们平台现在提升0.2个点,就已经非常可观了,远大于团队好几轮的年薪。
模型精准与泛化能力。
有时候这个模型我们希望能用一年半载,但是在不同业务场景里不一样。有的模型一个月得调一次,有时候模型要用半年。一会儿说的用户预警流失模式,可能不同的行业之间调整周期不一样。
不同业务场景有不同的追求。
一会儿分享第三个案例的时候会讲,两个完全不同的业务场景里用的算法都相同,都是分类问题,但是最后调整的方向完全相反。
数据挖掘的目的与本质。
对于数据挖掘本质我们认为往往是从大数据终挖掘统计规律,这是很有技术含量和数学特色的定义。数据挖掘的目的往往是从别人口袋里挖钱,把大数据当做金矿,在金矿里挖金子,数据挖掘的目的往往商业化更浓一些。
2.用户行为挖掘案例。
通过几个案例一块交流一下数据挖掘怎么样用在互联网用户行为挖掘里,一共是三个:用户行为路径、用户搜索网络、用户挽留与封杀。
(1)用户行为路径。
先介绍一下产品的背景,当时的项目是一个互联网分发平台,手机上的APP。这个APP主要是面向海外市场的,里面有160多个页面,每个页面我们会当成一个节点,用户在不同页面中的跳转路径当作一条线,我们会得出这样一张图。用户行为路径太过散乱,现在不知道看了这张图有什么价值。但是在我们的用户行为路径系统里,数据平台里有一个模块“用户行为路径”,可以过滤,过滤后可以保留一些比较重要的节点,去掉不太重要的节点,如果觉得不够还可以再过滤、再过滤,最后看到几个比较重要的节点。
最重要的是Home页,节点大小我们是用用户的到达率渲染的,到达人数或者次数,也可以是下载的人数或者次数,由你自己定义节点的属性,用这个属性渲染节点的大小。最重要的是Home节点,另外右上角下载管理,我们这是下载平台,跟属性有关系,用户可以在上面下载图片、音乐等等。下面几个,策划栏、games、apps都是我们主推的频道,音乐、图片、视频、电子书,主推的是电子应用。上面有一个壁纸详情页,这个意外的超过了游戏和应用。我们可以定位另外一个应用的场景,就是我看到图片的到达率和下载量比较高的话,可以定位我的目标节点,就是壁纸详情页,可以做单页面的来源分析。
这是目标节点,边上的数字可以是用户人数和次数,也可以过滤,只留最终的节点,再过滤。来到壁纸详情页的有几个大的节点,下面三个比较常规,壁纸新增热点、搜索结果页。是我们新上了一个功能“搜索功能”,说明搜索功能起的作用还不小,能够把原来不太热的热点带热了。搜索的作用在这儿基本上算是得到了印证,至少这个团队没有白挖。
相反用户行为路径分析有另外一种场景,就是单个页面的去向分析。刚才定位是全节点不限、目标节点就一个,现在选择语言节点就一个,目标节点不限。首页去向哪可以看到,全部看的话费劲,过滤、再过滤,过滤之后还可以加上数字。过滤之后可以看到从首页到达其他页面,到达最多的有哪些,另外页面的下载量可以看,数字可以改成人数、次数或者是下载量其他的属性,边上也可以加数字,就是从这个页面指向其他页面可以赋予一定的权重和次数,完全可以自由定义。我们这儿是边是人数次数,页面是下载人数或者达到次数。
更重要的是主题行为分析,刚才展示了整体的用户行为云图,但是整体的时候往往是纷繁复杂,用户行为散乱,不一定看到你想要的价值。什么算有价值?出乎意料。像刚才壁纸详情页,出乎意料得多,就有的分析了。很多时候我要定位用户行为的时候,你把所有的云图拉过来,可能看起来会非常乱,这时候我们挑着做。除了刚才做来源分析去向分析,还可以做主题行为分析。我们可以定位语言节点、目标节点全都是跟音乐相关的,看一下页面跳转路径,还有来源比较多的节点。另外如果是电商平台,可以定位用户的购买流程,从搜索到达商品的详情页,点击加入购物车、购买,最后付款,还有确认收货、评价,这一条用户购买行为跟主题相关的页面不超过10个,也有可能有十几个。付费中间可能有几个岔路,支付宝、微信、银行卡,银行卡又分借记卡、信用卡,每一个环节都又可分析的地方。
怎么从你的业务场景里抽象出主要功能,抽象出用户的几个主题行为,专门做路径行为分析,这样可能更有价值。
(2)用户搜索网络
这是在中国搜索做的,起了一个名字叫“用户搜索观星台”,这也适用网络分析方法。我们把搜索词当成一个节点,把用户当做一个节点,多个用户,多个搜索词就可以连成网络,可以进行划分,把有相同偏好的用户分成一个社团,也可以看跟搜索热点相关的其他热点,也有活跃用户。
第一个站点是印度站IN站,主要针对北美、墨西哥、东南亚、中东这些国家。10月10日的用户搜索网络大概长这样,中间有几个核心社团,周边一圈散点有的用户可能就搜了一两个词就走了,这个数据是经过过滤的,并且做了抽样,其实平台日活也是千万级别的。IN站当时日活也有200万,是峰值的时候,数据到前端之后其实已经少很多了。
这是把核心社团放大之后,用户搜索最多的是Facebook、Whatsapp,还有Tubernate,mx player,都是听音乐的。右上角的flipkart很有特色,类似于中国的天猫、淘宝,这是印度本土的电商。在中国总部的这些人是不知道印度人民、巴西人民喜欢什么的,就靠当地人民自己的搜索行为来总结出他可能喜欢的热点。展现的搜索词是可以点击的,在系统里点击之后可以链接到搜索结果,如果搜索结果没有这个结果,或者搜索结果为空的时候,就说明当地人民喜欢这个东西而我的库里没有,我们就会马上补上。我们还有一个栏目是转变给编辑留的,人为的做一些主题推荐,这在不同地区会推不同的内容。
这是二级社团,很有本土特生。搜索词不加过滤,可能十个有七八个都是这样的词,这是最大的。右边uc浏览器是中国的公司,当时我们分析在一段时间内,这个公司在印度市场长期占据前十下载量的地位,这也算是中国互联网公司出海的成功案例,后面还有小米。下面这个社团核心此是bang bang,动感音乐。在印度音乐长期流行,但是每周或者每几天流行的不太一样,要抓住这个热点的话这个系统就很有用,每天会出搜索云服,无限放大,看一级、二级、三级热点,主要关心的是这些可能会不停切换的用户搜索热点。
另外还有音乐的播放器,这些音乐播放期在用户行为上是相关的,做文本分析的话这两个不影响,但是用户行为这两个是强关联的。
flipkart是印度当地的电商,跟它相关的是亚马逊,另外还有gmail,旁边还有几个二级热点,full games,其有类似于360卫士的一个手机软件。
我们大体可以知道搜索网络可以帮助当地的编辑知道当地人民的兴趣。
第二个例子是斗转星移,巴西站10月7日搜索长这样,直接放大看它的核心,再放大可以看到用户搜索的每一个细节。几个主题词有个minecraft,就是《我的世界》一款游戏。中间地带porno,色情词,在巴西是合法的,当地民风比较开放。往上是火影忍者,再往上imo,即时通讯软件,类似于我们的微信,社交需求哪个国家都有。右上方有个二级社团,这就比较有本土特色,是巴西的一个乐队,跟巴西民风比较匹配。
过了一周,10月14日,搜索云图长这样了。这两个不说了,另外一个比较大的是pes2012实况足球,这个图是2014年,但是实况足球是2012是为什么呢?因为实况足球2012年之后不更新了。踢足球的游戏,两年不更新巴西人民照样玩儿,可以看出来热情。
jogo do halo还是动感音乐,过了一周,人们对音乐的兴趣度马上有了变化。
一张罗网可以编制世界,上面几个案例背后的算法都是复杂网络分析,只不过用了不同的算法,不同的模型,用了节点重要性。也有社团划分,另外其有分析的东西,不同的颜色就是不同的社团,节点大小代表不同的重要程度,跟节点相关的词也是可以定义的。
除了刚才的两个场景,可以把他泛化到其他场景里。比如说微博的传播路径,还有用其他的产品做搜索,我们可以看两个动态交互的Demo。
第一个是可视化搜索网络,这是用的中国搜索新闻频道的词。这是去年8月22日的图,这儿有一个大的核心社坛,是中间的词“薄熙来”。另外还有一个词“王立军”“徐明”“大连实德”,都是跟薄熙来有关系的词。另外有些大家不知道的东西也被带出来了,比如说稍微小众一点的“刘亦菲干爹陈金飞”“济南中级官方网站”,这是你不太清楚的相关热点。具体搜索是什么东西?你可以点击这个词就出来相关的搜索。
过了几天,8月26日用户的搜索热点就有了。下面这个还是“薄熙来”,但是没有4天以前这么热了。现在第一是“王勇春中石油”,看一下搜这个词的人还搜了什么“王立新中石油”“沈殿成”。用户行为本身产生的数据产品,有点拔出萝卜带出泥的感觉。有时候用户行为比检察院、纪委可能还要快,要是细扒的话有好多事。
8月30日没有特别突出的一个热点,这时候热点比较散点“薛蛮子”“李天一”,用户在没有什么大的爆点新闻的时候就开始回归本性了,闲得慌。搜索网络放在不同的场景下可以看到很多有趣的行为,另外换一个场景,可以看其他的东西。
这是微博的传播路径图,7千个节点,中间是个核心社团,是个船长的求救微博。当年有个船在公海在朝鲜截了,蓝色的点就是他的一级粉丝的核爆式传播,另外一圈是二三级粉丝转发,红色是大V的转发“新闻哥”,在传播路径中专发作用比较大的渲染节点。放大的时候可以逐层展现重要节点,这还有“盛大林”“恶棍村城管”。如果有背后微博昵称对应的资料库的话,可以直接链接到微博。我们还可以分析活跃用户,有相同偏好的用户,用户的ID也是可以展示的,用户ID可以直接关联到后面的简历库。有些用户搜到了某些词,可以直接看到是谁,在哪个学校毕业的。互联网时代,大数据时代大家慎独、自律吧。
(3)用户挽留与封杀
刚才大家看到的图是给内部人员用的,给我们的编辑、运营、产品人员看的,只是在数据平台上多了一个模块。后面两个项目是直接触达用户的:用户流失预警、刷金用户识别。这两个就没有那么炫的可视化图了,我们输出的是数据包括名单。用户流失预警都是常规的流程,你先理清楚问题,定义目标变量,做一些时间窗的选择,判断用户会不会流失。最后输出的是用户的名单和可能流失的概率,最多的是下角的“相关特征”,运营人员更关心快要用户有哪些特征,我才能决定用什么样的运营手段。除了流失概率,其他特征可能更有用。
刷金用户识别,我们平台上有一批用户来刷金币,有一些免费发金币的活动,收集之后就在淘宝上卖给其他人。淘宝上买黑金的用户经常是沉迷用户,输不起,有跑来砸店的。另外进入平台有欺诈风险的用户,如果是电商平台的话有抓们抛羊毛的,羊毛党。所有平台总有一小撮坏人,我们想把坏人抓出来,但是这是一个不平衡的二分类问题。这一小撮在平台上的占比很小,我们就要先做前面的数据平衡,我们用时间差来平衡数据,就是正样本用一天的,负样本用一个月的。最后选择随机森林,第四步可以稍微有个判断,但是后面还有,要把整套解决方案的精度提高到99%以上,这个很难。如果做数据化算法的话,分类算法精度很难达到99%,但是后面有一套业务规则,先是扩大名单,再用IP、白名单过滤,用手机号注册的,可能觉得是好人的,全都过滤掉,留下的这批就是一键封号,这个对于用户的伤害会比较大。正玩着呢,发现是刷金的用户就直接封掉,以后也不能再玩了。
他们可能会来找客服,客服会来找我们,所以要求我们每天误杀不超过20个。后面要把用户模型精度提高成这样,就是要靠搜索。
3.体会与总结
在具体业务场景中经常会看到算法的纠结与平衡,我们做一个分类模型,随机森林可能会给出一个结果。这个P值就是用户属于要流失用户的概率,默认的是0.5,小于0.5不会流失。实际上模型给出来的命中率和查缺率会达到75%左右。但是我不用,我们希望能覆盖到更多的用户,能留就留,挽留手段就是发金币,虽然费钱,但是钱是我们自己印的。只要流失概率大于0.2我就挽留,命中率只有到55%,但是覆盖率很高。不做这个的话,用户正常流失率是5—8%,做这个用户流失率提高10倍,相当划算。
刷金用户概率大于0.9的时候我们才认定他是刷金用户,这就漏掉了大部分的刷金用户,但是没关系,首要任务是不能误杀,这个命中率可能达到90%,但是仍然不能满足用户需求。后面我们又做了一系列工作,一整套的规则,就是把误杀率降到1%以下,其实给的是绝对值,降到每天20个以下。
小Tip:
1.不平衡数据分类,过采样、欠采样、SMOTE。
2.关于命中率,适时调整。
3.有效特征最重要。
两个葫芦瓶,第一个是乾隆的,风格艳丽、张扬,据说是把当时珐琅能用的颜色都用上了。第二个是雍正的,就一抹天青色。我们做事情也是一样,你什么方法都上也可以,但是如果你找到一个有效的方法也可以,可以征服众生。
任何一个有智力的笨蛋都可以把事情搞得更大、更复杂也更激烈,往相反的方向走需要一点天分,以及很大的勇气,这是爱因斯坦说的。我们也希望找到有勇气、有能力的人才,有意的加我微信。
我的演讲就到这儿,谢谢大家。
巴川:下面有请七麦科技创始人徐欢大美女,讲一讲人工智能方面的事情。
徐欢:我先说个题外话,我昨天晚上从上海赶过来,我非常吃惊。在那边我已经看到了人山人海,今天在一个讲数据的会场,看到这么多的人,台上站的还是汉子和类汉子的徐女士,我非常感动,大家在周六很宝贵的时间来到会场,真的是非常好学的一帮从业者,我也看到了我们公司的人。
今天我的演讲跟这个会场有些关系,也跟人工智能有一些关系,我的标题是“当AI人工智能与企业增长数据相遇”,会得到什么样的浪漫。
大家对AI和人工智能非常熟悉,不管你懂还是不懂,这个词在满天飞。7月中旬开复和硅谷的钢铁侠埃隆马斯克、扎克伯格发生了一次辩论,俗话讲是撕逼战。钢铁侠同学认为AI对人类是威胁,开复说我不叫李开复我叫人工智能。他们两个在微博上,在文章上关于人工智能发生了辩论。
人工智能这个词非常热,坦率地说,大家一定觉得离你们很远。我作为企业的联合创始人和高管,我也在想我们能怎么利用人工智能?企业如何利用人工智能发展和优化你的业务?我把我的思考和在业务上的探索分享给大家,如果你们企业也在关注人工智能,或许可以借鉴和参考。
我叫徐欢,你们在本子上看到我的照片是长头发,让你们失望了,今年春也非常忙,我跟我的投资人,包括跟很多合作伙伴说我已经变成了铁T。创业让你整个精神面貌会变,可能性取向也会变,开个玩笑。
这是我们的投资人李开复老师,我们成立于2013年8月8日,我们的天使投资人、A轮投资人都是开复和清科创投。我们旗下产品是ASO100,目前主要是做移动APP的大数据分析。我们平台上有全球400万个APP,包括跟JJ斗地主我们也是合作伙伴,很多做APP的企业了解我们公司。
开复最近所有演讲的观点就是,人工智能是一个大趋势,人工智能是当前最伟大的魔法师。在座的各位可能你们跟人工智能是对立面,因为人工智能在处理数据,机器在处理数据,在座的分析师你们可能是“对立面”,但是这是不对的。
你可能说我不相信这句话,接下来我会阐述一下。首先人工智能离我们真的很遥远吗?人工智能到底是什么?我用了一句非常通俗的话来告诉大家,人工智能其实就是用计算机来模拟人类的思维,进行预算、预测,业务上的操作。大家可以发现,这里面最核心的主体是机器,不是人,不是你我他,势必对人类的就业,业务冲击量包括你们的存在构成了一定的威胁,这就是在世的埃隆马斯克对于人工智能的质疑。他鼓吹人工智能必须被监管,因为不被监管的话对整个人类世界是个威胁。
但是这样的观点对吗?难道人工智能真的离我们这么遥远吗?
最近大家看到谷歌的无人车,就是人工智能。旁边是水哥,旁边是百度的智能机器人,下面是APhaGo和李世石的PK,都跟机器、机器人有关,觉得离我们好遥远。其实人工智能没有大家想得那么遥远,我背后的三张图,是2016年整个全年直播APP是400多家,今年直播平台剩下不到100家。移动APP行业竞争非常激烈,我很不好意思把明确的图放出来。
人工智能无处不在,电商背后同样有人工智能,大家如果有关注亚马逊和天猫的话,每个人进去看到的商品和推荐的栏目是不同的。包括你上一次浏览的商品在下一次再打开,亚马逊和天猫的检索跟上次是相关的。上次你搜索的是小孩的产品,下次他就会给你推奶粉,这是数据挖掘和相关推荐,最浅显的人工智能。
直播背后没有大家想象的那么简单,不仅是网红脸这么简单。直播背后的人工智能,首先是根据用户数据,用户到底是喜欢在白天登陆还是晚上登陆,他们会填充机器人的比例。现在直播你没有连4GWiFi观看人还在增加,这是bug。他们背后在做运营手段,我要根据用户的使用习惯来增加在线关注,让每个直播者认为自己在被重视、被互动,僵尸粉现在在直播里是很重要的。你可以吐槽它,但是这是一个必要的运营手段,任何社交平台都需要这样一个机器的调配,当他的平台观看人数不够多的时候。
他需要对用户进行画像,以秒拍为主,它是做大V和明星的,大多数主播实际上是明星。映客还是在做大众的直播,还有花椒,以女性网红为主,直播的背后同样也有人工智能的存在。
O2O产品,我相信大家对滴滴不陌生,早期抢过滴滴红包的举一下手。这是滴滴早期推广运营很重要的一部分,如果当你频繁使用滴滴的时候,给你红包比较少,当你离开一段时间,去抢的时候会抢一个大包。现在当滴滴和Uber胜负已分的时候,大家再也见不到滴滴的红包了。这背后是什么?是机器学习,是大数据运算。我需要什么?我需要用户消费,我需要用户进来。当我拥有用户的时候,我的赠送就会变少。我相信在座的各位与场外的吃瓜群众有绝然的差别,OFO送红包是因为跟摩拜单车还在竞争,如果胜负已分的时候是不会免费骑的,所以最近大家多骑一点。
O2O产品背后同样有人工智能,这样说起来,人工智能其实已经存在很久了。推荐、挖掘、用户画像,听上去都是人工智能。
我最终想得出的结论是,个性化推荐的算法早就有了,早期的人工智能已经存在,为什么人工智能最近又被提起来,尤其是在2017年。
这个图有点难理解,“我”代表人工智能,底下是时间轴。人工智能的概念在1956年的时候就被提出来了,它出生在美国。每次人工智能的学术报告和研究逐渐增多的时候,一种声音就冒出来,天啊,人类要毁灭了。当到达峰值的时候,大家又开始减少对人工智能的关注,所有人都会跳出来说人工智能是大骗子。这样一个循环,今年已经到了峰值,2010年之后人工智能又出现。声音升量增大的原因是因为深度学习技术的出现,这是真正改变了目前人工智能的一个决定性的因素。
深度学习是什么?卖个关子。人工智能实际上是由三元素构成的,在座各位想知道自己的公司是不是在做人工智能,你应该看看你们公司三大元素是不是都具有。
1.海量数据。用户量决定了数据量是庞大的,包括刚才演讲的猎聘,数据量也很庞大。
2.运算能力。后台架构,计算机的存储和处理能力。
3.深度学习。深度学习现在是核心要素。
深度学习是什么?它的核心其实是计算机能够从数据的规律当中找到一定的技巧,从而能够深度处理到下一个环节。所以大家可以发现,它实际上是一个平层的操作,所以深度学习的概念是说,当你给我大量的数据量的时候,我可以通过中间层次的运算和学习给到你最后的答案。你会发现,深度学习的核心在于你给它数据,它能够最终给你答案。
如果大家对深度学习有兴趣的话,现在创新工厂的人工智能学院已经在做培训班了,针对在座的数据从业者开放,有一个深度学习的培训班。
现在的巨头都在纷纷布局人工智能的领域,在座的各位适时补充一些人工智能的基础知识了。如果当热点已经达到峰值而你们还不知道的时候,在座的各位真的是有危险。
国内的公司,腾讯、百度、阿里,他们都在纷纷布局。腾讯主要布局的是智能硬件,百度是现在大家听到比较多的,语音识别、自动驾驶、度秘。巨头已经在这个领域告诉我们一个声音了,就是人工智能是下一个风口,而在座的各位想要抓住风口的话,是时候进来了。
结论是,人工智能离我们不遥远。
人工智能就是去学习我们的运算能力,把我们的机器存储和计算能力变到最大化,这样就是接近了人工智能吗?我认为其实这个不对,作为创业者,我认为大家和大巨头在布局人工智能,都是布局的底层结构,比如说平台化,计算机运算,计算云等等。创业者能够怎么做?创业者应该就是在垂直领域去做。比如说把人工智能的技术应用到具体的场景里,人工智能能运用到他们和玩家之间更好的挖掘和分析。把人工智能技术应用到企业数据增长领域,这就叫人工智能+,我认为这是下一个风口。
最近的风口是互联网+,下一个人工智能+,你们所在的业务将是一个风潮。
当人工智能遇到企业增长数据,首先企业增长领域,企业经营的终极目的是什么?可持续、持续性的盈利。持续意味着增长,所以企业任何经营和管理的目标是为了得到可持续性的增长。而你们能不能帮助和接近企业的核心领域,我们切到了企业服务中的增长领域,很幸运。
大家会发现,人工智能在运用机器的大量运算处理数据,并且得到数据的结果和规律。这里面你们会发现,很多数据分析师在做数据整理和数据挖掘的工作,实际上被替代了。你们的工作能力、工作价值被替代了,最近有一个观点,埃隆马斯克和美国一个教授提出来,未来美国720个职业,将有47%被人工智能替代,在中国会有70%的职业被人工智能替代。
第一个职业是翻译,其次是记者、助理、保安、司机、销售、客服、交易员、会计、保姆。
我知道有个e后台,就是帮助中小企业取消设置会计这个岗位,可以由第三方来做,甚至可以由e后台的机器人会计来替代。大家一定会说现在有很多问题,但是想告诉大家,这是一个进程,未来可能会计在收缩,剩下的是优质的,很棒的,技术能力过硬的会计。
我之前去美国的时候特意参观了一个大厦,他们没有保安,保安全部是人工智能,而这不是机器人在门口欢迎你回家。他们人工智能的保安其实是摄象头加门禁卡,所以人脸识别做得非常棒。每个人进来,即使你化浓妆,即使你当天去了韩国整容,你回来这个机器依然会把你识别出来,并且能够给你开门禁,一路电梯通到顶。但是依然会有bug,因为对黄种人的识别能力不够强,他基础数据太少了。
哪些职业不会被替代?第一类是创意工作者,导演、策划,比如说制作创意短视频,摄像、摄影都是创意工作者,这是机器做不了的。机器只能在数据盒子里做规范性运作,而跳出盒子是必须人来做的。各位从事的工作有挑战和有创新性的时候,请敞开怀抱迎接这些创新。改变反而会体现人的价值,这是我个人认为的。
第二类是人际连接者,在座的各位你们来这儿是为了认识行业从业者,销售、滴滴他们都是人际的连接者。
第三类是复杂模式的判断者,就是高级运营师和高级分析师。企业首席增长馆在我看来就是第三类人,CGO。
人工智能未来到底是为我所用,还是我为人工智能所用?这也就是埃隆马斯克和开复核心的争辩点。其实埃隆马斯克的观点在很多人看来是有谬论的,谬论主要的核心在于人工智能最终还是工具,因为机器需要人搭建,它的运算能力永远只在一个基础数据里。所谓的深度学习,也不过是基于海量的数据做处理和下一步运算。AI只是一个工具,而埃隆马斯克却把AI认为是像世界大战和星球大战里面的样子。那只是科幻片而已,我们生活中的AI没有这么大,它只是帮大家减少数据分析、数据处理的时间。
在座的各位如果真的在做数据运营,你们反省一下,你们每天做数据分析的时候是花了多少时间,是做数据整理。要把抬头规范,字体规范,格式规范,其实在做大量这样的事情,真正做数据分析的事情是少的。AI是帮大家处理前面的数据整理和数据梳理繁琐的工作,我个人的观点跟开复是基本吻合的。
AI在未来3—10年里,将极大的改善大家的生活质量。为什么?因为会把大家从繁琐的、无聊的、单调的数据搜集、整理的工作中解放出来,让你真正成为数据分析师,真正成为把数据加以分析的人。
我们ASO100平台上有400万款APP数据,每天会有各个互联网公司分析师来到ASO100网站上,查询APP的下载量,关键词的排名,包括用户的评论,每天的查询工作量非常大。我曾经跟接近100位用户做过线上和线下的面聊,我说你们每天的时间里到底有多少是真正做分析,多少是做数据整理。得到的比例我自己大吃一惊,8:2。80%做数据的查询和整理、下载表格,20%做数据分析,非常可惜。
我们做了一个AI实验室,不是想切无人驾驶、保安、翻译,我们只想做一件事情,就是把我们平台上的400多万款APP,近亿条的数据,通过一键可以帮助分析师生成出来恩,甚至我们可以自动帮他进行运算。当你输入APP名字,加上APP竞品,我们可以自动帮你制定你APP的投放和优化系统,而你只需要告诉我们,这样一个方案和这样一个结果好还是不好,你希望怎么改。
我们做了两个产品:
第一个产品是AI关键词优化师,就是直接帮助企业去做它的关键词方案,只需要三个输入就可以实现这样的操作。算词、定量级就是基于现在的深度学习和AI技术,帮助很多的人从繁琐和重复的工作中解放出来。手机端现在没有这个功能,大家可以到PC上搜索ASO100.com,你们可以看到AI关键词优化师,体验一下这样的功能,我相信可以给大家带来一些想法。这是我们微信的二维码,大家可以去体验。你们对你们身边的什么产品感兴趣,可以体验一下这个功能。
当人工智能遇上移动互联网,甚至遇上企业服务领域,我不认为挑战居多,我认为是新的机会。这个机会是好机会还是不好的机会?其实没有定论。如果企业和在座各位能抓住机会,我会认为它是好机会。而如果在座的各位被这样一个潮流和热点抛弃,我会认为它是一个坏机会。
ASO100在人工智能的应用层面我们做了自己的尝试,这样的尝试可能是好的也可能是不好的,期待大家拍砖,也期待大家更多关注。今天是第一次有缘跟大家结识,希望今后有更多的机会跟大家交流,谢谢各位。
巴川:谢谢徐美女给大家带来的高大上的大数据加上人工智能,谢谢大家的捧场,尤其是站着的和坐在地下的同学。下面有请中国数据哥彭总,我就不多做介绍了。
彭作文:我觉得大家太热情了,美女也看完了,人工智能也听了,大家怎么还不走呢?我网名叫“中国数据哥”,还有一个网名叫“中国红包哥”。平时有两个习惯,一不小心就喜欢发红包。如何赚钱的方式告诉你们这是最好的,你们身边有没有这样的朋友和这样的老师,他直接告诉你我这合同是怎么签的,钱是怎么赚来的,是如何增长的,这样的方式大家要不要?
我看了演讲嘉宾,又是帅哥又是美女,又是来自于很多大公司的。我一会儿要分享的主题,其实就是把我如何通过大数据的赋能,做一些分行业的应用,如何做到在两年的时间把公司的估值由5千万做到今天10亿的估值。同时在2016年的时候,我们有幸获得了3500万PreA轮融资,两年前我跟韩成老师认识的时候,那时候做公司做得非常累,头发也做白了,打算5千万把公司卖掉。后来一跺脚、一赌气又继续往前做,有了今天这样一点小小的收获。
我给大家分享的是“大数据分行业,方显大价值”,刚才徐欢美女说得非常好,当大的企业在做生态,我们比较小的创业型的企业该怎么做呢?里面讲了要专门做垂直行业。2015年很热的时候,我直接定义到大行业分行业应用,我在后面的商业逻辑里全部是在做分行业的应用。
这是发红包的群,看大家的兴奋度和掌声来发红包。我创办的企业叫中科点击,写了一本书《大数据分行业大解析》,在中国大数据的定义也是我斗胆的做了一个定义。最近被软件协会大数据应用峰会封了一个小芝麻官,应用峰会的会长,我也来讨好一下分析师,要不你们不选我。
我快速过一下我们的收获,资本市场的认可和客户的认可是最重要的,所以在资本市场上,我们在2016年获得3500万PreA轮,最近又获得行业巨头投资方和政府方1亿的融资。我们的核心举措,关于公司这一块就快速过了,我们会定位到做分行业的应用。这里面有两个关键词,人工智能来了之后也可以做人工行业的分行业应用。在座的分析师也一样,如果你是数据分析师我也是数据分析师,就没有什么特点。你是某个行业很牛的分析师,这个行业一定是超大体量的行业,这才有特点。
中科点击为什么在大数据分行业领域里有一定的优势?
1.数据。
我们10年累计了1千亿数据,同时互联网上最优秀的一款爬虫产品就是中科点击的军犬爬虫,大家进群也可以来找我们要爬虫,用于研究的话我们可以免费赠送,这个爬虫每年授权四五万。
2.算法。
很多都是文本数据,我们里面有一个遗忘算法,这也是在刚刚过去的数博会上,中方派出了几个黑科技团队,就是用的这个,最近京东金融也全面启动了遗忘算法做工作。大数据企业里,没有数据的大数据企业都是耍流氓,没有大数据应用的企业都是耍流氓。我们人工智能也一样,你率先把人工智能用于做APP的优化,我认为就是找到了点。
3.创新策划。
4.执行力。
5.人才。
行业级的平台,中科点击的业绩是怎么构成的?我会快速的过一下。这是我们的案例,会分成几个类别给大家讲一下案例。我先从几十万的案例讲起,因为签这个合同是个几十万的案例,后面还有几百万的案例,还有我们做的行业级的平台是千万级的,这些都是跟数据分析密切相关的。大家不要纯做数据分析师,有机会联合我们做一个行业级的平台,我会播报行业级平台是如何快速做成,拿到最好的价值的。
第一个案例是智能客服机器人,不知道算大数据还是人工智能。我看到很多公众号都有微信号,不管是政府的还是大企业的。他们的微信服务号动辄几百万人跟他们互动,有这么多客服人员来对答交流吗?我问汽车之家的运营情况,实际上公众号是没有去运营的,没有回答的。所以我们就用了遗忘算法结合数据做了自动应答,这是解决的第一个工作。
比如说你问二手车频道在哪里,常见的问答,都可以直接给你导向到相关的页面。完成了自动客服的工作,除了这个还不满足,我们还从大量微信的对话问答里挖掘了大量的销售线索,而一个销售线索我们转给4S店,就转化为500—1000的价值。如果每天转换1万个销售线索,大家知道能产生多大的价值?产生上百万的价值。如果从百万里面再说,因为提供了服务,我收10%的佣金,这个合同就被我们签下来了。
同时智能客服机器人,我们也在进一步深入结合遗忘算法,结合AI、语音识别,在做一些深度的智能应用。这是价值80万的小合同,加上分润的收入。
第二个是量体裁图,不管是APP还是互联网,它有大量的UGC的内容,不光是上传文字,还上传文字。可是问题来了,上传图片不管是10兆、20兆还是50兆,网民PC的功能也不够强,就直接往目标平台上上传了。我们就分析,它从互联网上传还要自动匹配移动互联网,要不然得传两次。我们看到这个痛点以后就做了机器学习的算法,用户上传一张图片我自动分析,这里面的技术就来了。
比如说在座的美女上传一个旅游的照片,开了一个好车,拍得也很漂亮。但是我们这个图得把车框好,人个车都得识别出来。识别出来之后还得根据PC端和移动端再去做自动的适配,这个项目我们又拿下小一百万的合同,大家觉得这是不是一些应用的点呢?
昨天我还在跟内蒙的领导说,大数据企业到底赚钱吗?我说别的不太清楚,但是我们算是少数找到赚钱之道的一部分的大数据企业。
第三个应用是4S店精准获客。它把厂商的车推给客户,是最后一个环节。大数据的精准应用就是精准营销,所以我们在想,如何给4S店引流。不管是大数据还是人工智能,我们摸清一个道道,只要你能帮他赚钱,怎么分钱都可以。当我和你一起做事情,不管你今天认不认识我,不动你的存量,而是做增量,赚钱对半分,他肯定非常高兴。如果当你能和别人一起分增量的时候,你的合作伙伴是非常开心的。我们针对大的客户,精准营销方面我们都是做增量、分增量的,其中精准营销就是通用的法宝。
还有一个应用校园印迹。我们在大学四年,或者研究生加起来六年时间,你毕业以后数据是不是没被带走,还是归学校。我们针对学校就做了一个产品,让你大学毕业之后,把你在校园的数据全部带走,并且做成很好玩的方式推送给你。比如说你洗过多少次澡,上过多少次图书馆,去过多少次球场,以及这4年尖谁和你最亲密,谁经常跟你吃饭,一起去宿舍,这个人不是你的女朋友就是你的好基友。45天左右就给一所大学打造出来了,学生毕业的时候都得到了这么一份礼物,他们觉得太开心了。还有他们军训的照片,他都没想到学校会送给他这样一份礼物。
关于学校的应用,做教育大数据,我说我全是想出来的。关于高校的应用我想出来了十多个,每个应用都让他们买单,这个小项目就是50万的项目,大家想一想,如果我拿下来50所高校,100所高校,能不能给在座的分析师发得起高工资?肯定发得起,这是学校的情况。
第五个应用,舆情大数据压力监控。和京东金融合作的产品,用数据分析每一个京东的产品的特点,通过产品再匹配到京东的供应商,同时判断这个供应商的金融价值。这是京东从全国50个厂商里,通过技术PK出来的。
第六个应用检察院大数据。人工智能也好,区块链也好,大数据也好,我们不要分得这么严格。有一些联动工作数据就要打通,面临着你的信息好,但是别人传过来的是纸质的文件。从公安传里一个案卷的卷宗,我们就用技术进行OCR的识别。识别这一块我们原来也没怎么做过,也没谱,但是通过我们数据能力和运算能力,奇迹发生了。我们识别的准确性居然达到了95%多,客户自己说基本上达到了世界最高的水平,突然捡了一个宝一样的。
大家在网上可以搜到山西检察院做的会议,其实这个会议就是来验收整个产品的成果的。我们从50万的项目费用做到了200万项目费用,并且还是区级检察院,中国有多少区级检察院?3千多个。所以我要给在座数据师分析行业的小伙伴们鼓鼓劲,这个行业前途无量,并且不会被取代。
刚才这些应用都是百万级以下的应用,接下来我说一些千万级的应用。我在省厅级单位有一个质监大数据的项目,什么样的商品又下架了,我们还在超市里有。这些数据根本没有到达B端和C端的手里,我跟这个单位进行两天的策划,客户愿意把1675万合同交给我执行。整个里面的核心应用切入点和场景的寻找,我们只用了两天的时间策划出来了。
科技大数据应用,很多公司每年有常规的盈利渠道就是向科技部门申报经费。我去了科技部发现,全国都在申报,我就做了科技查重和科技查新的平台。这个人是重复申报的话,钱就不给他了,这个项目也是得到了全国科技部门的推广。从此他们判断科技申报项目的时候就可以应用小人工智能了,这里面一个六个界面,也是千万级的项目。
这是行业级的平台,我们一直在做项目产品化,你现在让我做项目也比较盲目了。项目如果能产生化就非常有兴趣,核心的关键词是做企业能够盈利,能够发展,核心关键词就是复制。你做出一个产品,能不能被很多单位用?你的产品复制性有没有?
我项目做产品化,只是完成了一个软件的动作,接下来产品一定要平台化,由卖软件变成卖账号的模式。平台还要大数据化,大数据和人工智能来了以后,当一个软件公司碰到大数据企业简直是弱爆了,如果你们是老板的话,要考虑转型和大数据人工智能的赋能。
软件是做业务流的,几天就给你模仿了,找几个很牛的码农。大数据有算力,有数据,我任何客户对象马上能联系到决策者,这是数据的能力。所以软件公司在大数据公司面前真的是弱爆了,并且在定义大数据层面里DT是包IT的。当然还不能说大数据、人工智能能够颠覆互联网,但是大数据、人工智能优化互联网和赋能互联网,这是绰绰有余的。
所以平台大数据化了以后再怎么样?再品牌化,在运营,这就形成了我们的价值。
慧数汽车平台,我们用了三个月的时间,做了行业级的平台。汽车行业的门户是汽车之家,我们在一百天之内拿到了汽车之家一千万的天使融资。我们客户直接针对汽车厂商进行分析,在座的分析师有没有在咨询公司做报告的?你们的数据怎么来的?咨询行业尽管有一些数据来源,但是很多数据还是凭数据分析师的想象。要有真正的数据支撑才是真正的数据报告,我们抢了很多咨询公司的饭碗。因为我们数据直接来自于汽车之家的数据,以及我们整合了十多个泛汽车领域的数据,包括银联的POS数据,车驾号的数据。数据的判断来自于某一句话,这个产品已经服务了17个汽车厂商,刚刚拿到了林肯的合同,369万服务10个月,平台才20多人。我们在8月份能完成A轮融资,估值4亿。
中科点击是做分行业应用的,到底有多少个行业值得去做?360行,行行都可以做大数据。我是最先倡导行业大数据应用的,昨天我去内蒙,他们让我做草原大数据,这个行业根本没人做,所以我一做就是第一名。
轨道交通大数据,一条轨道线有300亿,10%用于做信息化,10%做大数据,全国像这样的线有200多条。我们分析师一定要把自己所处的行业给分析好了,我们光给客户分析,没把自己的职业生涯分析好,那是很大的损失。
分行业还有很多,我们现在已经进入到了20多个行业,就像生小孩一样,不过生小孩不能并行,我们可以并行着来做。三五个很也的团队,包括分析师的人,你懂旅游我就传旅游大数据,你懂物流我就开始研究物流大数据,你懂房产我就研究房产大数据。房产行业太大,我做细分,我做新房、二手房、拆迁大数据,我分析这一片儿到底用多少亿能成功拆迁,我给政府节省50亿拆迁费,我拿5千万行不行?
我今天说的比发红包重要吧,招投标也一样。现在只有一个平台“千里马”,这在我们大数据面前弱爆了。招投标环境跟政治环境非常相关,跟领导也相关。我们做这个平台解决让大家中标更容易,你别去死磕,别去陪标。你中标最好的捷径,给他做个供应商,你在北京工作的时候,人家在那边跟客户歌舞升平,你怎么干得过它,这是招投标的智能分析。
这个平台是被贵阳的创投,按照6千万的估值投了,投了1千万,占了1/7的股份。
招商大数据,平常求这些领导办点事挺难的,一把手都得出来吃饭喝酒,跟我们一样拼命。因为他求发展,求招商,找到板块、企业、人很重要。这个地方要发展大数据行业,我给你对接人才,有几百个、上千个会组团去。
大家可以查到中标信息,我们没上线呢就被天津泰达中标了。我们产品有好几支基金,直接开出一亿的估值,也仅仅用了不到一百天的时间。
教育大数据,刚才跟大家讲了一些案例。我精准的服务于高校,有2600多所高校,加上4000多所职校,六七千个客户对象我就足够了。大家看我做分行业大数据,为什么大家不认识我呢?是因为我从来没给你贡献C端的产品,全部是B端和G端的产品。汽车平台为什么会很快的估值这么高,转身一变就2G、2B、2C了?因为我们分析得太清楚了,你构成用途不一样,选车就不一样。政府端的你一定买奥迪A6,如果是为了泡妞,把车开到中系或者北影的,你肯定买拉风的车。
每个地方买车的特点也不一样,华东地区买个车考虑省油,路虎在西北卖得就特别好。我们在9月份推出一个产品“慧选车”APP,按照自己真正的想法选车。
还有金融平台只服务于银行,所有行业级平台要不被投资了,要不就正在被投资的路上。
其实这种案例非常多,我每天做的一件事就是做一个能源大数据,来策划一下,基本上一个平台大数据要花两天策划,出来基本上能成为行业级起码有一定价值的产品。昨天我去了蒙牛,蒙牛如何做大数据?最近我连续参与了文娱大数据的策划,广告大数据的策划。广告行业有很大的公司叫紫罗兰,我也参与做广告大数据的策划。
大家想不想知道案例背后的逻辑?经验的总结要不留到下次。
1.行业细分。
这个细分可以做到一级细分、二级细分、三级细分,一直要找到你是第一的那个行业。
2.找准切入点。
不管是做大数据还是人工智能、区块链、量子通信,很多战略新技术都会发生,我们要找到应用点。什么叫应用?就是踢足球我只踢前锋,不管后场球怎么开过来的,我只往守门员的方向狂射。所有你想要的技术,全球都在为你提供,你还想我能不能研发一个什么自动驾驶的技术,你发现伟大的百度和谷歌会给你开源出来的,你还用担心吗?用就好了。
找到切入点,很多人都喜欢找痛点。不只要找痛点,你找我的痛点我很难受的。到医院就是找痛点,我是必须要切除小肿瘤,我忍痛让你切了,但是我交的费是不爽的。你要找痒点,各位男士到KTV多高兴啊,800块钱一个小妹。痒点就是给政府找他的量级,给政府做增量的政绩工程,他肯定会很喜欢。很多做大数据的企业,为什么他们到客户那儿不受欢迎,我到客户那儿受欢迎呢?这个数据打不通,这个那个的说人家,信息中心下来恨不得拿刀子捅他,这几十年我白干了?所以做东西人家不配合。我做痒点,我把成果都包装给他,他肯定很喜欢跟我玩儿。
3.标准化流程。
做软件行业的不知道老板们有些什么感受,很多IT老板有个特点,这个产品什么时候能开发出来,下面的研发人员说3个月。你3个月再看的时候,他说对不起还要6个月,6个月的时候说还有点bug。程序员招聘也挺难的,你想杀了他也挺可惜,但是机会没了。
我们有100天倒计时,不管这个事多难,100天必须上线,所有绩效考核全按照这个来。如果100天上不了线,我就“杀”了你,100天能上线我就让你去happy。我所有客户的项目,我自己做的平台,人也少,100天也准时上线了。有句话说,挤一挤也会有的。
如何做到标准化流程?行业大数据平台我分成了16个任务包,196个节点,100天上线。你不用东想西想,你就按照这个节点和步骤原封不动的执行就好了。
4.关于应用场景。
我去年写了一本书,今年也在写一本新的书,我把大数据的场景和切入点完全找完了,9大类型,20大方向,34个应用场景,150个切入点。最后变成了客户做选择题,开始客户还说你懂我这个行业吗?最后发现都在我这个框框里。其实这些东西是宝贝,150多个切入点当然写书也不能全写,今年这本书还是会写一些的。
5.客户导向。
我会判断客户的需求有没有共性,同类型的客户会不会多,如果只是一个客户,行业里就这么一个需求,你给我三个百万我也不会接这个项目。如果一所高校找我做这个项目,有2000多所高校我也就接了。如果有二三十个省厅级的单位,可能我们会去做。跟选男朋友、女朋友一样,选择等于成功。
6.产品驱动力。
大数据应用产品,产品是有驱动的,你为什么做这个产品?所以我提出了数据驱动、应用驱动、技术驱动、业务驱动、项目驱动、趋势驱动、政策驱动,如果要详细讲的话能讲两天,告诉你一个产品是怎么无中生有整出来的。
现在在座的很喜欢百度,我发现很多做产品的或者做创业的,就习惯什么事都去问百度。我招一个产品经理来,我说你怎么做的?他说我先搜百度。我提出来一句话,做产品不问百度问谁?问客户。我的产品经理是不允许他们搜百度的,你老去模仿,能模仿过别人吗?叫不问百度,问客户。我做每一个产品的时候,找出十个样板客户,把他们发展成种子选手,给他们发红包,让他告诉我这个需求。
我做房产大数据,把住建部的市场监管的信息化最牛的人请成我专家了,十个红包搞定,他就会变成行业需求的提出者。做产品我们需要什么?放开电脑,我们静静的在这儿想,原创。如果实在想不出来了,我们再发红包,再让他想。
7.数据能力组合。
调度大数据基本生态的能力和人工智能相关的能力,为什么你能一百天做一个产品?实际上我们是经过了十年的沉淀,现在我做产品是搭积木的做法。连一个对话框、登陆框、短信的接口都是进行的组合。最近我们有一个合作单位,看到我们的模式。他说我要做这么一个行业级平台要花两年时间,我说两年时间基本上黄花菜都凉了,现在是3个月产品如果不上线都不行,天下武功唯快不破。
我简单分析到这儿,我也是掏肝掏肺的跟大家讲,谢谢大家。
巴川:非常感谢,军犬舆情做得还是很不错的,大家有兴趣可以加彭总好好聊。再次感谢各位,都饿着肚子站着听。