楼主: admin_kefu
1584 0

[经济类] 2017年中国数据分析师行业峰会:CDA数据分析师专场(十一) [推广有奖]

客服管理员

已卖:255份资源

泰斗

84%

还不是VIP/贵宾

-

TA的文库  其他...

管理文库

威望
3
论坛币
31068208 个
通用积分
13868.6077
学术水平
546 点
热心指数
668 点
信用等级
528 点
经验
297042 点
帖子
10900
精华
13
在线时间
36792 小时
注册时间
2010-6-2
最后登录
2025-12-28

初级信用勋章 中级信用勋章 初级热心勋章 初级学术勋章 中级学术勋章 中级热心勋章

楼主
admin_kefu 发表于 2017-8-11 16:54:52 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

2017年中国数据分析师行业峰会:CDA数据分析师专场(十一)  


分论坛11:CDA数据分析师专场

时间:2017.07.29 下午

地点:中国大饭店


   主持人:尊敬的各位来宾、女士们、先生们,大家下午好,非常感谢各位在百忙中莅临本次分会,我是此次CDA数据分析师专场主持人霍婷婷,请允许我代表主办方对各位的到来表示热烈的欢迎以及最诚挚的感谢!

首先,我们有请到的是周磊先生,他今天为我们分享的是“CDA助力商业分析人才职业道路”,


E8V}_COAF7V3@Q50~_00V@B.png



   周磊:欢迎大家能够来到分会场,我非常乐意看到他们来到我们这个分会场,因为这也是我们CDA的一个主会场。在座的有很多CDA老学员、老朋友,还有很多爱好者,实际上很多年来,我们从2014年的时候,CDA第一届大会到现在,每一年我们都在坚持办一个分会场,那就是CDA数据分析师专场。为什么呢?在这个会场我们非常愿意跟大家一起聊一聊工作中的情况,吐槽一下行业里比较奇葩的老板。


   我用商业分析来概括我们的产品,实际上我觉得商业分析包括数据分析数据挖掘、商业理解、业务理解,也包括一些大数据技术。所以,我们更多的喜欢把自己称为一家商业分析的培训公司,而不是简单的一家市面上的大数据公司。


   CDA是以数据分析师的社群为载体的培训机构,我们非常强调社群的概念,一会我会跟大家简单介绍一下我们整体的发展历程,从2003年人大经济论坛的雏形开始,我们就已经在探索基于用户社群,怎么样去提供更好的职业培训服务。


   刚刚我也提到了,我们是一家以社群为载体的机构,相信在座的各位可能也参加了去年9月份的活动,今天我们看到旁边的分会场也同样如此。大家的热情度很高,这是我们非常愿意看到的。每年每个月我们都在举办大大小小的技术性的沙龙以及行业的交流活动,我们希望通过这方面的交流努力给大家搭建好的平台,让大家在这里交到好的朋友。


   去年在主会场,我们探讨了在不同的专业、不同的职业背景之下,怎么样去转行从事数据分析,从事数据科学的这么一个话题。当时来自国内外的专家还有一些学院派的老师、企业里的实战派老师都分享了自己的想法,如何在自己的工作跟爱好间有一个取舍,怎么样从一个文科专业或者弱势专业踏入到数据分析这个行当里来,这是一个非常有意思的话题,相信今天大家肯定还是会很感兴趣。今天我们准备了一些话题跟大家分享,看看哪一类话题是我们非常感兴趣的。


   在过去的企业里,我们跟各类机构合作举办了一些付费培训和免费的公益训练,包括在座的朋友都应该有参加过,很多都很有收获,甚至非常愿意去分享。我们会看到很多用户和学员在工作了几年以后,他非常乐意去帮助你一块分享他的一些工作心得,甚至很多人喜欢写一些自己的微信公众号,或者以博客的形式来分享自己在数据分析这条道路上,无论是转行还是步入到一个更高台阶上的心得。


   去年,我们和IBM大数据大学一起联合举办了一些数据分析活动,邀请了一些行业专家分享他们的心得,基于开源的项目去做一些有意思的动手小项目,都很有意思。今年下半年我们也在筹划中,非常环境大家多时候去参加。


   大家在选择去每一个分会场时都会关注这个会场讲什么东西,同样,这对我们演讲者来说也是一个挑战,你讲什么东西是大家感兴趣的。我在私下里理了一下思路,第一,大数据是什么,后来想想我还是不讲了。第二个就是大数据的4V特征,前几年很多的培训机构非常多的讲到这个。最后一个是如何利用大数据找女朋友,这是一个伪命题,以前我看到很多媒体机构或者一些老师在给自己的学生、或者给自己的用户分享的时候,用这样一些比较有意思的话题去吸引客户。实际上真正有用吗?我是持怀疑态度的。所以我们也不愿意去讲。


   我们真正愿意讲的东西是什么呢?第一,准“数据分析师”们的选择,在座的很多人可能并不都是从事数据分析的工作,可能有从事销售、财务、人力方面的工作,大家都是带着兴趣来的,所以我们希望跟大家讨论对于准数据分析师来说,他们有什么选择。


   另外就是我们CDA在职场服务领域的探索,整个这一块并不是仅仅从事培训,培训是我们一直坚持做,坚持在优化,包括团队最聚焦的事情。另外,我们也有一些其他方面的探索。


   最后一点,我相信在座的很多人应该是非常感兴趣的,数据分析师到底能赚多少钱?从大家的客观感受,从招聘网站或者其他各种报告里都会有些数字高度大家。今天希望作为培训机构的角度,作为职场服务角色的角度跟大家探讨这么一个话题。


   所以总结来说,接下来我主要想跟大家聊的是以下三点,我们主要想一起聊一聊数据分析师的职场生活,聊一聊理想,聊一聊我们什么时候能达到年薪50万。相信各位一定非常感兴趣。


   刚刚提到了对准数据分析师们的选择,到底有哪些呢?很多人在咨询我们的工作人员,或者跟老师沟通的时候说想转行从事数据分析,这个路到底需要多久,有什么难度。大家总认为数据分析师是一个非常成熟细分的岗位,我觉得在过去两年来看,这的确是一个趋势,但是在很多企业里,他有时候并不一定是成熟细分的岗位。


   来看一看去年我们峰会的数据,这是一个比较简单的数据,数据分析师仅仅占了30%左右,更多的是学生、老师,或者从事科研的,相当有占40%、50%左右的有销售人员、IT工程师、有做咨询工作的,有做产品运营的,还有一些管理层。真正有数据分析师的有很多,但并不一定每个人都在从事数据分析的工作,但同样具有数据分析的技能。


   今年有一个词特别流行,就是数据化运营,我们鼓励很多朋友并不一定是要到企业里奔着数据分析师的岗位去走。你原来可能是从事用户运营工作的,有的是网站运营的,有的是市场分析的,怎么样用更好的数据分析技能、手段和工具帮助你现有的工作,去提升你的表现,去提升你的见解,我觉得这是非常重要的,不是每个人都需要去当算法。


   之前我们经常会强调数据分析师跟业务部门经理的矛盾,我花两天做了一个表,告诉你们业务人员说这个事情应该是这样的,业务人员慢慢悠悠地说没用的,我们经验很丰富,你做的东西全是纸面功夫。很多时候业务人员也可以从事数据分析,而且现在这是一个趋势,我们为什么会强调有一个业务数据分析师的概念?很多人并不是学的数据分析师专门堆代码、搞算法研究、搞模型研究,而不去关注实际的业务。从事财务、市场、人力工作的一样可以通过数据分析的手段帮助你提升现有工作的表现,这个是我们非常建议的。


   其实早在很久以前,三四年前我们打过一个公交广告,当时我们是抱着一个试着玩的态度做了几张海报,我在这边想说的实际上是上面这个,就是我们怎么样从数据的观点去说服我们的老板,说服我们的业务人员,说服我们旁边的工作人员,说这个是正确的,而不是按照我的主观判断来决定的,有时候简单粗暴的数据跟表格再加上一个精美的PPT可能就能说服你。


   所以,我们提到的数据分析师的价值在哪里?第一,数据本身是非常重要的,你有处理数据的能力、有对数据解读的能力,这是最重要的。我们更关注的是后面的两个,第一,你是懂得怎么样去解决这个问题,第二,你对我们公司或者你对所服务的老板的业务是非常了解的,这是我们非常推荐的。之前遇到很多咨询的朋友时,我们会提议,你可能不用跳槽,也不用转行做数据分析师,好好地把数据分析技能融合到现有的工作里去,一定会对你有所帮助。所以,很多时候我们认为在当前的环境下,在很多企业里面,在很多城市,数据分析可以更好的作为一项工作技能,而并不一定是一个岗位。在座的有很多数据分析师,但是我相信在座的很多人可能回去学习了以后,或者去大学读了数据分析专业以后,你可能还是一个运营人员或者程序员,没关系,一样有价值。


   第二块想跟大家一起聊的就是我们在职场服务领域的探索。早在2003年的时候就有论坛的雏形,从2006开始我们就基于论坛,因为2006年的时候我们就有国内比较早的像子论坛,里面有各种大牛,现在来看有很多人去工作了,很多人写书了,很多人跟我们一块去合作开发课程。


   在2006年的时候,论坛相对来说还是比较有吸引力的在线社区,不像现在,大家非常愿意去知乎,去一些个人大V的账号里去关注他的信息。早在2006年的时候很多学校都有这个数据分析的课程,到2013年的时候,CDA品牌成立,我们几位创始人希望给大家提供系统的分析方案,提出了一些系统的培训体系,基础理论、比较流行的工具和分析方法和行业案例的角度去讲。2014年12月我们第一届数据分析师认证考试推出,2015年我们又加入了大数据分析方面的认证,并提出了三个月的脱产培训体系,基于理论、工具技术、商业案例以及职场经验的指导,这些都是不可或缺的,每一届学员都会有一个最终项目的实战分享,会去对接一些企业,跟企业聊一聊到底适不适合这些岗位。到2016年、2017年的时候,我们在北京、上海、成都、西安、深圳、河北等地都陆续建立了当地的培训中心,未来几年我们相信这几个地方会为我们整个行业带来更多优秀的数据分析师。


~LQ$AH$K4C8NA@D3KM8{`[D.png


   最近几年,我们为每一个脱产培训的学员建立了档案,持续跟踪他无论是当时在我们机构这边的表现还是以后入职公司的薪资,做一个持续的追踪和观察,希望跟大家保持一个好的关系,看看他未来发展道路是什么样的。


   同时,在座的每一位,我们之前工作人员应该有拉大家加入一些相关的社群,我们会定期分享一些活动的资料、学习的资料。当然学习不是一件非常容易的事情,我相信他们一定在未来能够发挥他们的能力的。今天我们也邀请了一些老学员和老用户过来跟大家分享,无论是分享他们的心路历程,还是在实际工作中的心得体会,或者跟大家交流一下同行的工作经验,我觉得都是非常有意思的,所以一会也欢迎我们的几位老学员和朋友一块去交流。


   今天分享的朋友有的从电商的角度,有些是从行业数据挖掘的角度去谈,这些项目是我们内部团队坚持不懈地去到各个城市铺开的,比如说这周末在成都也有活动,在全国各地都有类似的活动,相信对大家是一个很好的选择。


  上午我们的工作人员提到了我们跟北大、跟几家企业联合在今年的8月中上旬,我们的官网会上线,把竞赛的数据开放给大家,大家如果有一些新的实际商业情景下的题目想挑战或者想研究的话,可以关注一下。


   最后想聊聊OfferHere职业猎头服务,为什么聊这个呢?第一,这是我们相关业务发展趋势,而且也是在座很多学员的诉求。第二,我个人或者我们机构对数据分析师的薪资和他们的职业发展都非常感兴趣,我们想更好地弄清楚这个事。就像刚刚提到的那样,到底什么样的一个人才能拿到年薪50万,他需要具备什么样的条件,或者我们更愿意看一看当下的企业到底愿意花多少钱来找一个好的数据分析人才,这个是很有意思的事情。我们一起来看一下,2014年国内某985大学毕业,统计学硕士,精通R、Pyhton、Spark,前单位是谋迅商业分析部,五年数据分析工作经验。我这边引用了一个去年国外的报告,我们后来第一时间对它做了中文版编译,实际上统计了一些受访人群,数据分析师每周工作时长。大家认为一周工作多长是正常的?每周工作50个小时以上的,我们认为是比较轻度的加班或者重度的加班。在他这个报告里,调查的全球的包括亚洲、美洲以及其他地方的受访人群的工作时间,每周工作50小时以上的人群占比可以在多少呢?27%,所以从这个角度来看,加班不是那么严重,很多程序员泪流满面。后面分享的嘉宾也可以聊一聊自己加了多少班。


   这只是一个角度,实际上我们认为这个报告是有局限性的,这个报告实际受访对象一共只有不超过一千位,全球范围内不超过一千位的受访者,这个样本量非常小。所以,我们觉得这个事需要几位在座的朋友一块去聊一聊,分享一下自己的加班情况。


   接下来回到刚才的话题,数据分析师能赚多少钱,刚才的报告里也提及了这一点。这是一个全球范围内的受访者薪资中位数,亚洲大概在6万美元左右,30多万人民币。但是,这份报告人数样本量太小,第二,没有介绍人群的薪资。稍后我们希望客观的从我们的角度来看一看到底是什么情况。


   下面的报告是去年我们的分析师根据市场上的招聘网站,这个是2016年第四季度的数据去做的报告,岗位情况做了分析,包括人才需求。我们非常关注薪酬,也非常关注一开始提到的学历、工作经验。无论是你2016年毕业,你可能也会写两年多的工作经验。


   在这份报告里,在国内的一些主要城市,包括二线城市,数据职位平均薪资在一万出头,包括了北上广地区,也包括成都、深圳相对而言没有那么大需求量的城市。我们从工具的角度来看,不同的岗位工具的要求,当然这是用人单位整体数据的采集。这个报告如果大家感兴趣是可以下载的。从数据分析的角度来看,主流的大家可以看到,中间这一块区域是属于数据分析师岗位所要求的一些工具,当然,跟大家理想中也没有太多的差距,所以目前来看,你主要主攻一到两个领域,其他的有一些理解就可以了。


   刚才也说了,我们目前在国内是体量比较大的一家培训公司,而且是专门从事数据分析和大数据、商业分析的公司,从我们以前学员的统计来看,我们在2016年春季的班次,平均来看可能是工作经验在1—2年左右的数据分析师的平均薪资情况,大概是在9500左右,包括了北京、上海,也包括了其他的二三线城市。


   我们目前在跟很多的老学员、很多合作伙伴去探讨这么一个新的业务模式,去看看怎么样通过更加专业的就业服务团队、猎头服务团队,去帮助我们的学员、我们的用户、我们的各个社区的爱好者一块去寻找到更好的职场工作机会。


   大家以前有一个困惑,我要找工作很难,但是我们觉得一个好的数据分析师,或者在座的每一位,如果将来在有幸经营自己的成长体系或者工作心得体会之后,工作找你很容易,但是你找工作不容易,要找一个企业所喜欢的工作人员或者好的分析师是非常难的。


   最后想分享一句话,叫做学数据分析就找CDA,学人才换工作找OfferHere,谢谢大家!


  主持人:感谢周先生的精彩分享,接下来咱们有请林术贺先生,他今天为我们分享的是“我的转行之路”。


   林术贺:刚才我看到有几组数据,说是平均工资9500,我纵观一下我的同学,现在应该都在20—24之间,20是最小的。我是2015年的时候加入CDA,2015年的8月10号,因为这是我人生特别重要的一个转折点。


   大家好,我叫林术贺,是在ims新媒体商业集团做数据分析工作。我们公司是做自媒体商业价值变现的,比如说网红、大V,以及明星新浪微博的价值变现。最近有一部电视剧特别火,在前天的时候热播结束了,《我的前半生》,我的《我的前半生》定义在虚岁29岁的时候,我给我的前半生打了一些标签,特别不如意的一些标签。我2009年大学毕业的时候,由于java都学过,但是不精通,所以做过销售,甚至还摆过地摊,差不多从入门到放弃。后来我的上一家公司倒闭了,我的一个朋友,是人生的一位贵人,给我总结了一下我的人生,总结经验就是我需要一技之长改变现状,后来我就成为了CDA的二期学员,是在2015年8月10号,一个星期六。


   我今天分享的内容是希望大家能够从我的分享里得到这样一个支持,一个转行者是如何学习的数据分析的,应该怎样夯实基础,如何学习数学建模、如何把知识变成能力。最后这一点特别重要,我认识很多人也自学过数据分析或者技能,但是知识和能力是两个概念,如果想把知识变成能力需要一个大量反复练习。学习是一个反复重复的过程,没有任何捷径。


   回想我近两年的学习,我压缩了大量的时间,因为我上班比较远,7点钟上班、大约9点钟到家,晚上学习至少三个小时。我在CDA的时候,主攻的是SAS,CDA的SAS教程我累积观看了6遍以上,我看的是丁亚军(音)老师的,讲得通俗易懂。读书量累积40本,这时候有人在想,你是不是吹牛,两年怎么可能看40本书?这里面有诀窍,看起来是40本书,其实里面的知识根本到不了40本,知识是有重合度的,这样的话,就解释了我可以说我看了40本书,我这个书单也会在PPT里列出来,每一本书我得精读细读过。公开课,这是一个好东西,我们可以把它理解为免费的学习资料,比如像网易公开课可函学院的线性代数我看了两遍以上,预计10—15分钟之间,你把它拷贝在手机里不停地反复观看。因为我是没有什么理论根基和基础的,所以前期的时候,我以大量的理论知识为主,学习统计、学习线性代数。


   我之前给公司做了一个分类器,打标签,把新浪微博的自媒体分五类,第一类是明星,最后一类是垃圾账号,库里有上百万个账号,如果人工去打的话,可能两年打不完,而且这些人什么都不用干,浪费了大量的人力物力,效率也赶不上来。当时我用了一个决策数的组合算法,以及他们在平时打标签时的一些经验,我放在模型里面,大约不到一个小时,这几百万就全做完了。非常快,五个分类,每个分类的准确率是在88%以上。

刚才我提到统计学不止一次,为什么要学习统计学?这一段我是从一本书上摘抄下来的,叫《统计分析》,李航(音)写的,写得特别好,初学者看起来可能有点吃力。统计学习是以数据为研究对象,基于数据构建概率统计模型,并且运用模型对数据进行预测与分析的一门学科。当别人问你干吗的,你说我是数据分析师,他完全听不懂,你就把这段定义背下来放心里默念两遍。精华部分是后面这部分,统计学、概率论、计算机,现在50行数据用笔算完全没问题,如果有300行估计你得算到明年的今天,所以要充分掌握现在高性能计算机的方法。如果你的学习时间有限,我想以最快的速度能够解决一些问题的话,那你就把统计学学好,多看一些统计学的书。


   曾经我去一家公司面试,面试我的是一个小姑娘,她对我说,我有三年的数据分析经验,你不要忽悠我。当时把我吓坏了,我的天哪,这得多么厉害,我特别小心谨慎地给她讲,后来我发现我说的她完全不明白。最后她是做了三年表格,也就是“表妹”,我们工作中很多同事都是“表妹”“表哥”。后来我随便给她说了几个模型以后,她不懂,我的底气马上就上来了,外行啊,狮子大张口,工资我来定。


   下面咱们做一个小小的测试,看一下一个入门的数据分析师作为一个终极的分析师,我们至少应该会哪些数学模型。红色字体部分是首先要学习的,黑色字体部分可以放在以后慢慢学,比如说我们做均值比较的、T检验、方差分析,线性回归、逻辑回归,在实际中解决问题的。


   我这里重点说一下决策树,不光它本身可以解决问题,你把它组合起来,boosting、随机森林也可以解决问题,CPM这个东西的数量范围本来就很小,它的误差是很小的,稍微有一点误差的话,就是不可用的。这些模型是一个数据分析师必会的,如果这些都不会的话,我们就应该去学习了。总之,尽快脱离表格的水平。包括我们单位也是,有很多“小表哥”、“小表姐”,我也会给他们做一些表格式的培训,比如让他做一个动态表格,他很蒙圈,不知道Excel能做动态表格。


   下面是基础分析师的水平,这些书建议大家拍下来买回去好好学习,这里面最经典的就是应用多元统计分析,还有一些公开课,在网易公开课上好好看一看。我们把这些基础夯实了以后又要进行提升,就得上算法的,看看提升篇,上算法篇,我们应该看哪些书。主要以这种回归、数据挖掘的模型算法为主,比如说图解机器学习、社交网络分析,这些书都特别经典,大家买回去好好学习。


   在这里我说一下社交网络分析,可能是我从事这个行业的关系,做新浪自媒体价值变现,很多时候需要研究每一次广告中,哪一个新浪微博中看了很多广告,那都是我们公司干的。打开广告以后,广告主特别关注的一点是说我想看看我的这个广告都有哪些人给我转评赞的,扩展路径是什么?我想找出强关联点,广告主特别关心这个,所以工作期间我又自学的社交网络分析。这个是机器学习篇,把这些拍下来好好学习。


   因为我们是电算化时代,不可能用手算,我们肯定要利用学习工具,SPSS,这个东西是简单粗暴容易上手,但是里面的算法要大家好好理解。这个SPSS是必会的,不管你其他的会不会这个东西都要必会。

统计分析工具肯定就是SAS、R、SPSS、Pyhton。然后BI,我们要给老板做报告,做分析报表,这个时候你不可能像写论文一样长篇大论,我写5000字,老板不开心,而且你的业务理解能力也不一定包括你的老板,这时候我们尽量用报表,一幅图胜过千言万语。而且它是属于知识获取性,对业务理解层次深度不一样的人,通过同一报表解答出来的问题是不一样的。比如说我们的运营总监,我去公司做的第一个项目就是用表格花了两星期的时间做了一个特别复杂的报表,我们的老板很惊讶,表格还可以这样。当时他在解读那幅报表的时候很让我惊讶,我想到的我没想到的,我想到的,我没想到的,他都能从里面看出来,我当时的一个领悟就是看图说话,真的是一幅图胜过千言万语。


   还有一个神器,比如我们的数据量非常大,几千万,表格已经打不开了,这时候就是tableau,这个东西的神奇之处就是几亿行的东西做一个报表,分分钟展现出来,还可以直接连数据库,特别方便。做数据分析和挖掘,我用的是SAS,我主要用的模块是SAS。


   机器学习,因为我们做的很多模型是要部署到线上的,比如你给开发讲一套理论知识,他写不出来,所以你就要学会编程语言,把模型写好之后,把逻辑告诉他,把代码给他,让他部署到线上。这样每次做分类、预测的时候,就不用每次手动去做。所以我一共掌握了这么三个工具,SAS、R和python。


   就像刚才说的那个小女孩,有三年“表妹”经验的吓我一跳。我们看一个入行分析师至少能解决哪些问题,我敢说下面这些问题是一个“表妹”打死也解决不了的。


   第一个是结构性问题,比如说我是一个卖冰淇淋的,我进多少货呢?我可以用一些数据挖掘的方法探究出小学生每增加一千人,对我冰淇淋销量有什么影响,温度每升高一度有一个什么样的影响,当然这些用线性回归就可以解决。所以,类似这样的问题都叫结构性问题。


   我举一个我工作上的例子,因为我们是做广告经常听到的积极词就是CPC点击付费、CTM,千人阅读成本。我们经常遇到的一个问题,我想知道女性粉丝每增加一千人,对我的广告效果会带来什么影响,当然女性粉丝越多,年轻粉丝越多,微博的转发率就会越强。像这些问题都是结构性问题,你把这些问题用回归的方式做好报表以后交给老板。这样的问题除了一个分析师之外,别人是探索不除了,别人只能说大概是怎么样,但是我们可以用这种统计的方法给他一个比较精确的答案,让他眼前一亮。


   第二个问题是一个预测性问题。刚才说我们工作中经常解决的一个问题是结构性问题,如果说我们现在还不能解决这个结构性问题,大家回去把这几个字抄下来,回去好好学习。我们工作中面临的第二个问题就是预测性问题,这种分类器要比回归在工作中用得多,比如说你们现在在做一些客户,比如说一个月提供一个解决方案,但如果我们作为一个数据分析师的话,你告诉他我可以预测出谁即将流失,谁即将违约,不还咱们贷款了。你给他拉一个列表,通过一些方法,把这些用户找出来,告诉你们的老板,你们老板一看,这个厉害了,这样的话,直接能够特别精准地找到这些流失用户,要比我们撒大网捕鱼节省很多费用,这样的话,可以为公司省钱,你的老板就会拿出一部分给你申请一些奖金。


   刚才说了一个分析师要解决的问题是结构性问题,预测性问题,其实还有一个问题是关联分析,这个在企业里面也是比较常见的。我有一个朋友是做流量分析的,他经常用到的一个模型就是关联规则,他要找出哪两个页面之间,因为我们网站有上千个页面,要找出哪两个页面之间有强关联,用户经常从哪个页面看完之后就跳到哪个页面,其实这也是结构性问题,他会做这样的分析,把报表找出来,告诉产品,我们的用户行为是什么的。产品一看就知道了,这两个页面是什么内容,他们为什么有这么强的关联,这样的话,可以减少什么问题?跳出率。有些页面就招人讨厌,看了一眼就想走。比如说我们做一些关联分析,发掘两个页面为什么可以有强关联,我们把这个规律总结出来之后,给你的产品,你的产品就可以解决一个问题,即跳出率问题,这个问题是一个“表妹”解决不了的,你必须学会统计分析的方法。


]V%{[$_U3KM~0{Y9VV`MB21.png


   关联分析最经典的案例就是啤酒与尿布,在电商里面做推荐,关联分析也特别好用。比如我经常发现某两个比较陌生的商品经常被用户一起购买,当用户在浏览某一个商品,或者对其中一个商品下单的时候,就可以通过我们的推荐系统把有强关联的商品也给他推荐过去,这样的话可以交叉销售。比如说亚马逊,30%的销售都来自它的推荐系统,它的这个推荐系统特别厉害,如果大家买书不知道买哪些体系书的话,打开亚马逊,先搜你最想买的书,它会给你推荐一系列书。我刚才的那些书就是通过这种方式在亚马逊搜完以后去京东买的,当然这样不太好,因为京东好,总不能买本书等两个星期。


   刚才我们说了三个问题,结构性问题要处理,预测性问题要处理,关联分析问题我们也要处理,比如网站页面关联,商品之间的关联。还有一个问题就是市场细分,比如说我们在用移动电话卡的时候,高端人群用的是全球通,次高端用的是神州行,最低端像我这种水平的,因为我也不出差,就在北京待着,所以我用的最多的就是动感地带。移动是怎么把这些用户进行分群的呢?就是用了聚类,聚类这个东西特别厉害。我们在做模型的时候,最大的难度是我们不知道谁是好人,谁是坏人,我们要花大量的时间。比如说我做过分作弊,一共花了四个月才做万,我通过画图画表的方式,找到他在哪些数据上是有异常的。


   在这个上面花了大量的时间,然后建模运行到现场部署可能只用了不到半个月的时间就做完了。所以,这个特别难找。这时候怎么办呢?我们可以活学活用,如果不用目标能解决的问题,我们就用聚类分析。张三和李四长得很像,就把他们放一堆。


   举一个我上班时的例子,我当时做了一个聚类分为六类,需要侦测每一类里面不同的广告效果是什么样的,我把广告的响应率拿出来通过抽样的方式放进去之后,你就会发现响应率高的用户,类的特征是什么样的。因为光聚类没有实际意义,聚类之后还要对它进行挖掘,他为什么能有全球通,他为什么用动感地带,这个东西在数据里面都是有展现的。所以,客户分权也是我们必须要掌握的一个技能,这个在工作中是非常非常常见的。


   刚才是说一个分析师入门级的,或者终极的,我们至少能解决这四个问题,结构性、问题预测性问题、关联分析以及客户分群。大家做一个自我测验,看看哪些问题现在自己还解决不了,深度反思一下,解决不了的,回去买相关的资料进行学习。这些问题到我这个水平就是比较能够解决的,比如你拿两万块钱,这几个问题解决不了的话,不出两个星期,你的老板就会让你失业。当然如果你想拿两万块钱,这些问题你肯定要按照这几个方向去写,一点错都没有。


   我当时在学习数据分析、数据挖掘的时候,遇到了一些难点,大概做了一下总结,我看一本书第一遍完全是蒙的状态,它说的是什么,我读都读不懂。概念无法理解,知识点记不住。第二个问题,不要跟我谈模型,一谈模型我什么都不会,这也是我们学习过程中经常遇到的问题。第三个问题,我学了新的,忘了旧的。第四个问题,如何把知识变成能力。


   接下来就从这四个角度,咱们逐一解决一下。先说概念无法理解,知识点记不住的问题,如果我是一个刚刚开始学习数据分析的人,我看到左侧这个公式,我只认识X,但是下面又加了一个脚标,这是在学习数据分析、数据算法的时候,你经常遇到的问题。你坐在那苦思冥想,一个星期之后还是不懂。第一个原因就是你不认识这个符号,其实这些符号并没有我们想象得那么高大上,也没有那么难,它只是个标记,它就是个名字。比这个Y上面加了一个倒三角,这是我预测出来的结果,你把这些符号遇到不懂的复制下面,在百度或者知乎问一问,总有通俗易懂、容易上手的解答。当你知道了这些符号代表什么意思,再反过来看这个公式就简单很多了。


   第二个问题,被算法的推导过程迷惑。这个算法的推导过程太难了,左边是线性回归,我看最小二程的时候,一遍又一遍看,完全看不懂。但是,这个问题也没有关系,一个初级的分析师也不一定有这个能力把算法推导出来,但我们可以达到一个应用层,我知道这个算法能解决什么问题就可以了。你理解不了,在网上一搜也能找到一些通俗易懂的答案,我不需要知道它是怎么推出来的,我知道怎么用就可以了。


   然后是拗口的定义,我一说最小二程,很多刚入行的人一听,想死的心都有了。不管是多么复杂的定义,他在课本上写得非常官方,但是你把这些理解不了的定义复制下来,搜一下,总有大神能够给你一些简单粗暴容易理解的答案。你就知道这个公式是干什么的了,我用这个模型能解决什么问题,结构性问题能不能解决,比如X1是温度,X2是小学生数量,Y是冰淇淋销量,是不是这个公式就可以解决,做一个参数估计我就知道了,温度每升高一度销量有什么影响,周边小学生数量每增加一千人,我的销量有什么影响。这些问题就解决了。

还有一个问题,如果你找不到通俗易解的答案的话,没关系,把公式手抄下来,先记住有这么一个东西,总有一天你会开窍。


   回顾一下我当时的学习过程,我在一年前或者几个月前,所有理解不了的这些知识到现在我都理解了,随着你学习的进度条往前走,随着学习的开展,你的知识、你思考问题的能力肯定越来越全面,到时候自然而然这些问题就都能懂了。


   再一个,学习模型。这是PPT里的重点,主要是教大家怎么学习模型的。这是我在两年里面总结出来经验,在学习模型之前,基础统计学很重要,所以说,我们学习模型之前至少要掌握一些概念。打个比方,标准差、方差、偏差这些我们要理解,知道是什么意思,这几个公式都很简单,得把它写出来,数据变换方法。因为每个模型有不同的适用条件的,比如线性回归,正态分布,你理解不了没关系,网上有很多通俗易懂的图。

线性回归使用条件的,当我们在做数据挖掘的时候,这个数据非常脏乱差,差到你根本无法直视。怎么办呢?

我们是不是要掌握一些变换方法,非正态分布,左偏怎么变,右偏怎么变,先把这部分解决。接下来开始进行模型的第一部分,尤其是在经典的统计模型,都有它的原假设和适用条件,你可以做一个自己的代码本,把每个模型的原假设适用条件都写上。比如说当你在实际工作应用的时候,你觉得这个问题线性回归就可以解决,提到线性回归,你脑袋里蹦出来的第一个概念就是我线性回归的原假设是什么,我们的适用条件是什么。

如果用这种经典统计模型想解决一个问题,并且让这个结果在老板面前站得住脚,有底气的话,这个模型建模的过程一定要尊重并服从原假设。


   刚才这两个问题熟知之后,来一个新模型,经典、实用、好用。我的第一个印象,原假设是什么,第二个,它能解决什么问题,很多人不能做到学以致用,因为他不知道这个模型能解决什么问题。我当初是怎么突破这个问题的呢?我就做了一个这样的矩阵,比如说逻辑回归能解决什么问题,我是不是可以在里面写上,决策数能解决什么问题,都写到表格里面。


   刚才已经说了三个问题了,模型能解决什么问题,模型的原假设,还有一些最基本的概念。第四个问题,当我们对模型的学习有一些数量级以后,比如说我们学会了十个模型的,但是你发现同一个问题可以用很多模型来解决,如果你时间紧、任务重,想快速定位到用哪个模型来解决这个问题的话,你就要知道模型的差别是什么,优缺点是什么。也是这幅图,方差分析和T检验的差别是什么,也可以写到这个表格里面。把这个做成一个矩阵,回去好好研究一下,把模型的差别、能解决什么问题都放在矩阵上。


   刚开始分享的时候,我说了一个问题是说我当时用决策树的组合算法做了一个分类器,当时我进入模型的变量有38个,但每个变量都有一定程度的缺失。这个时候怎么办?我是不是可以进行缺失的添补,或者把缺失的数据删掉。但是这两个我都不想做,就看你对模型的掌控能力。我当时选择了决策树,为什么?因为决策树对少量的缺失有一定的免疫能力,决策树就可以解决五个问题的分类吗?肯定不行,分类准确率肯定不行,但是我可以用决策树的组合算法,好处就是少数的缺失没有处理,把38个模型放进去之后,哪怕他对我的Y没有响应也没有关系,当然,这个就是属于挖掘上面的概念了。用统计分析的话,我的变量是冗余的,我要剔除掉,挖掘就比较粗暴。这个就是挖掘和统计分析的差别之一。


   前两天我做了一个分析,从周一到周日发新浪微博,以及每天从零点到24点发微博,产生的阅读有没有什么差异。在解决这个问题上,肯定是方差分析,均值对比。我做的第一步就是先对我的外部阅读做了一个取对数的变化,这个对数变化很神奇,可以解决异常值的问题。把去过对数以后的阅读数放在我的方差分析里面,方差分析的一个假设是什么?方差齐性,如果不齐,这个模型是用不了的。当时我发现通过统计检验,我的方差也是不齐,但是这时候我就不用了吗?以我目前掌握的知识,我不知道怎么比较了,这个时候怎么办呢?我把每一组的方差都写出来,我发现最大组合、最小组合方差的差别只有一点几,这时候我可以继续使用方差分析,我得出了一个检验结果,我发觉我们业务部门的时候,我们业务部门说对,就是这样。


   我们在日本是有代理商的,日本代理商发微博的广告全都是在每天晚上20点之后,我当时想不通,我觉得就算也时差,他中午也得发一发。后来发现每天晚上20点以后以及星期日发微博,会有更多的人去读。后来我把这条信息发给公司以后,肯定公司要做一些对蒙牛这样的大客户,注重阅读的,注重传播效果的,肯定要对它的投放做一些传播调整。不满足方差分析假设条件的时候,我应该怎么办,毕竟是数学挖掘领域,差不多大概的企业能满足就可以了,不需要条件那么苛刻。


   下一个问题就是对比模型的优缺点,当我们学习很多模型之后,我们想对每个模型加深理解的话,必须知道每个模型的优缺点是什么。刚才说了,决策数优点是什么?小量,可以不用处理。从几个维度对比这种模型的优缺点。


   第一,当我们拿到一个模型之后,我应该从如下四个角度分析优缺点。第一,我拿到一个模型我就先想能不能解决结构性问题,这个问题在实际业务里面是最常见的一个问题,当然这个概念可能很多人第一次听过,但是在实际工作中的做法大部分都是结构性问题。把这几个问题拍下来,回去拿到一个模型,从这几个维度对比优缺点。是否能解决结构性问题,对缺失值、异常值是否敏感。第三,是不是黑箱模型,黑箱模型有一个优点解决简单粗暴,即使你对这个模型有少许的理解也可以拿出来用。这种黑箱问题几乎是没有什么特别苛刻原假设,没有什么特别苛刻的适用条件。第四个维度,我这个模型能不能解决连续性问题,能不能解决离散问题,比如说回归是解决Y,我的Y是连续的。决策数,我的Y既可以是离散的,也可以是连续的,这两个问题都能解决。把这些模型优缺点写在代码集合上,即使记不住,也没关系,拿出代码集合打开一看一目了然。


   还有一个问题,当我们做完一个模型之后,用拖拉拽的方式就可以出来了。给我输出了很多统计结果,除了上面的字之外,什么意思我都不知道。这时候你的问题就是在说你不会解读这个模型,当输出统计结果,你不知道每一项都是什么意思的时候,记住了,你的问题就是不会解读。模型的解读是做统计分析里面特别重要的一步,想解决问题,这一步就要好好去学。


   模型怎么解读?比如说现在很多教程是知识有保留,比如说你买一本书,他在模型解读上,大部分的书都在模型解读这一块,没有特别详细的解释。比如说我做一个方差分析,方差齐不齐,我从哪看,方差不齐我从哪看,我做一个回归,回归的预分析是什么,回归做得显不显著。我发现很多书本上对这个都没有介绍,所以说如果有写书的大神的话,可以从这几点入手,我保证你的书一定会特别畅销。


   因为我在CDA的时候学的是SAS,丁老师对模型的解读是幽默风趣,又把特别复杂的问题能够简单粗暴地解读出来。所以我在学习解读模型的时候,我根本记不住,怎么办呢?我也是用了上一个方法做了一个代码本,我把模型输出的每一个统计结果都复制到我这个代码本上,每一个P值是什么意思,OR是什么意思,我都打上备注,这一段输出的问题是什么,能解决什么问题,对什么问题进行了统计检验,我都写在代码本上。当我在后期使用模型,我不会解读的时候,我根本不需要再反回来看视频,我只要打开代码本一看每一个统计检验输出的结果是什么,自然就会解析了。学习算法、学习模型特别重要的就是解读这一块,很多人都卡在这儿,什么意思?我不知道,模型解读,回去大家好好研究一下,做一个代码本,把你的每一点心得都写在这个本上。


   还有一个问题就是记性差,学习虽然是一个反复的过程,但毕竟我们精力有限。我经常遇到的问题就是新知识学会了,旧知识忘光了,比如我当时印象最深的就是我已经学完神经网络了,我发现方差分析怎么解读我都不会了。没有关系,我有一个代码本,拿过来一看,每一个输出的统计结果是干什么的,能解决什么问题,这个也是用自己的代码本来解决问题。


   这是当时丁老师做的代码本,由三部分组成,第一部分,这个模型的原假设是什么,适用条件是什么,优缺点是什么。我放在模型的头部,我给它写上,当我再次打开模型的时候一看就知道了。


   第二部分就到了代码过程,我QQ图怎么画,得有一个明确的标记,我想画图,有什么途径。做一个这样的代码本,就算你代码记不住,模型不会用,没有关系,你下次打开代码本,直接复制到软件里面。咱们不会写还不会改吗?做数学建模,还有统计分析,学习算法,其实在最初的阶段是很少有人听几遍之后能把代码完完整整写出来的,很少有人能做到这样。大部分人是怎么样呢?我会改,我不会写该不会改吗?我把别人写过的代码拿过来改,我知道每个代码是什么意思,代码主体结构放在这儿,想要什么就写。


   刚才开篇的时候说了一个问题,学习根本就没有什么捷径,就是时间一点一点堆起来的。如果你想从同行里拔类而出,一个是时间,一个是方法。


   我学习的方法,因为早晨比较清醒,我学习新的知识。晚上干了一天活了,脑子还处于高速运转的过程,我可以回顾旧知识,没事把代码本拿出来练一练,根据老师的视频好好地读一读,学一学。前期肯定是以理论只是个算法理解为主,因为前期你根本达不到一个应用的水平,因为各方面知识积累还不到。


   如果你不在电脑前,在上下班的路上,比如说这一天累了,躺在床上不想开电脑了,你可以看上面这部分,看一下理论知识和算法理解。如果有机会抓住电脑,并且时间是你的,百看不如一练,马上打开统计软件在上面进行各种敲打学习,不停地丰富你的代码本。像这种与软件打交道的机会,你在电脑前,这个肯定是以软件操作、模型解读为主。如果不在电脑前,多看理论知识、算法理解。两者相互结合,我相信三个月后,你会有一个变化,两年后你会有另外一个变化。


   最后一个问题,如何应用模型。很多人通过一番学习之后,最后还是一个“表哥”“表姐”,学了一身本领,会套路,不会用。怎么办呢?第一,借鉴别人的经验,看看别人是怎么解决问题的,在知乎上搜一搜大神写的项目经验。中国有一个专利的网站,把别人申请的那些算法、模型的案例下载下来好好研读。比如我是做新浪自媒体价值变现这一块,网上有很多自媒体应用的文章,我都把它打印出来,没事就看一看别人是怎么解决这些问题的。


   第二,根据业务问题进行模型组合。在模型应用这一块,最笨的一个方法就是使劲往里套,如果你的项目允许的话,使劲往里套,大概知道这个模型能解决什么问题,拿出数据里套,看看最终能不能得出满意的结果,得出来你就中奖了,得不出来再换一个模型。


   模型组合这个东西很厉害,模型算法就是一个工具,有人单刀,有人双刀,双刀的就是模型组合。比如我们做一个市场细分的时候,我有几千万的数据,维度特别多,几十个维度,我既较精度,又要速度,怎么办?我是不是可以做一个K均值聚类,再做一个系统聚类,又有速度,又有精度。


   在业务上还有一个应用,这是我前些日子做的,WOE也算是一个算法。我之前做的一个问题就是我想知道不同群组的用户,他在广告效果上的响应率是怎么样的。广告效果肯定就是多少阅读、多少转评赞。但是我对这个问题要进行简化,比如我的CPM低于10块钱,我认为广告效果是好的,标记为1,超过10块钱,效果不好我标记为0,首先连续问题就变成的离散问题,我用零一的方法,解决的问题就是我知道了不同属性用户的自媒体,不同属性的新浪微博的博主,他们在响应率上有什么差别,这样的话,把这个结果拿出来交给你们老板,我是怎么做到的,给他这么详细一说,非常科学地就解决了这个问题,模型组合在业务里面经常应用。比如说分类器,我做五分类的时候,在第三类和第四类,因为信息重合量很大,我做五分类的话,在第一次得到的效果,第三类和第四类精度非常差,容易把这两个错分。我是怎么解决这个问题的呢?一二五这几类是分类比较高的,三四容易错分怎么办?我把这两类训练数据单独拿出来,再用分类器,做二分类的精确度要比这种做多分类的精确度高很多,二分类就是非此即彼。我也是用决策树组合算法,第三、第四类又做了一个分类,组合在一起解决了同样的问题,最后的结果就是每个分类的准确率都是在88以上。


   刚才说了一个问题,模型组合的问题,下一个问题也是关于模型应用的,一个模型可以用的不仅仅是这个模型,还有这个模型里面的思想,这就是说初次学习的时候能达到一个应用,我知道这个模型能解决什么问题。当再高级的时候,能手动推导这个模型是怎么出来的,当你达到这种比较高层次的时候,你就可以领悟到这一点,模型可以使用的不仅仅是模型,还有模型里面的算法。打个比方,线性回归这个问题,线性回归的计算法是不是最小二乘。当时我做的一个分析是想衡量微博账号在一段时间内粉丝增长指标的这么一个指数,我想对比两个账号,如果说我是个“表哥”的话,我就用一个星期后的粉丝减去一个星期前的粉丝数,一比就出来了。但是我们掌握一个科学的分析方法以后,我可以用最小二乘来解决这个问题。


   当时我和领导配合工作,这个方法是他想出来的,用最小二乘的方法解决这个问题。看到这个问题我也觉得很新颖,模型可以使用的还有里面的计算法,大家可以理解一下,想达到一个高层次就把这个算法理解得深一点,看这个计算能解决什么问题,把它放到一个业务里面。


   还有一个是模型拓展问题。在企业里面经常用的模型就是RFM,这里有很多做运营的,这个模型他都会,肯定就是时间、频率和金额,这个CRM里面只有一个RFM吗?我这个问题是不是可以进行变换,我先往里套一个业务数据,我想衡量广告主的价值,广告主在我这儿最后投递的时间我可以知道,投放频次我也可以知道,广告主投了多少钱,这三项我知道的,是不是可以用RFM知道广告主的价值是什么,我应该重点维护哪个。

   衡量自媒体价值的时候,自媒体就已经没有这种时间、频次和金额三项了,但是没有关系,我拿出阅读数、互动数以及广告效果数据,就是这个链接产生的点击以及产生的购买这样一些衡量指标。我把这三个指标也用RFM这个思想,对阅读数进行分组,1—9组,对互动分组1—9组,对广告效果数据分组1—9组。然后我用RFM的思想,把这三个维度的九组数据进行组合,是不是也相当与一个RFM?这样的话,我就不止一个RFM了,我可以自创很多这样的模型。自创的模型只要在业务上能解释得通,就算对。


   还有一个问题,因为做这种,如果你的目标Y是一个连续性问题的话,做这种连续性的预测非常高。比如老板让你预测蒙牛投放的广告传播它的CPM是怎么样的,多少钱,让你提前给一个数。可能CPM从零到上限就很大了,做这个问题很难。怎么办呢?回归问题,可能我对业务理解解决不了,我可以变成分类问题,我预测这次投放会不会低于10块钱的CPM,会不会低于8块钱,用逻辑回归输出一个概率,有80%的说此次投放的CPM低于10块钱。告诉你的老板,你的老板就可以给蒙牛一个答复,蒙牛一听,原来是这样的,这个结果蒙牛也很开心,总比你预测一个具体值强。


   如果说我们会表格、会建模的话,在实际业务中,当然你在公司所处的位置肯定很高,但如果你想变得更全面一些,你应该还要掌握什么技能呢?因为我们是处在数据部门,我在我们公司是大数据库的,经常涉及到一些问题,就是数据流出的问题,数据流出给业务部门或者给其他投资公司。比如说新浪微博的活跃粉丝数,难道我真的就能够流出去吗?新浪部门肯定是不满意的,但是我可以通过数据脱敏的方法,尽量减少数据的损失,还让你看不到一个真实数据,我把这个数据发出去,对方很开心,我们也开心。


   还有指数排名的算法,我们小学的时候就是哪个孩子学习好排第一,哪个孩子学习不好排最后。每个公司都有不同的排名算法,我们可以放到代码本上研究研究,看看别人是怎么给客户打分的,排名算法最常见的问题给客户打分,RFM也是一个排名的算法,算出来谁有价值、谁没有价值的过程。


   谢谢大家!


   主持人:非常感谢林先生发自肺腑的一个分享!接下来我们有请到的是李炜刚先生,他今天跟我们分享的是我想学以致用。有请!


   李炜刚:大家下午好!首先自我介绍一下,我叫李炜刚,也算是数据分析行业的新人,今年刚应届毕业。

从去年的这个时候刚刚走入数据分析师这个行业,我是湖北人,相信在座的也有湖北的,普通话一直是自己的弊端。说到湖北,这里可以说一句,我在第一家实习单位,我的领导听我的普通话,就天天叫我小湖北。


   去年这个时候,刚刚期末考试考完,就想接下来的路到底是选择考研还是自己出来工作。我的本科是统计学,毕竟学了三年的统计学,想我的统计学能产生什么作用,我不想浪费三年的统计学。就接触到了CDA,知道了有数据分析师这个岗位。


   以前觉得统计学学完大概去个统计局,进个调查行业什么的,后来知道数据分析可以产生价值,想想自己曾经学过的像统计学原理、多元分析、概论率等等都可以用到实际工作当中,想想也是蛮开心的,所以就走进了数据分析师之门。


   我的第一家实习单位是一个互联网机构,我觉得他还是主要重视线下的发展,毕竟要转型,需要数据分析师这个行业,很有幸成为他们公司的第一名数据分析师。刚进入的时候,他们领导也了解到数据分析师可以产品价值,具体怎么做也不知道。如果数据产生闭环,我们才能有一套完整的方法论或者一套分析方法对他的业务进行分析。


   还有一个工作也是欠缺的,跟我今天的演讲主题一样,我想学以致用,首先我拥有统计学的理论知识,但是怎么应用到实际工作当中,我觉得还是有欠缺的。所以的我就思考自己接下来的路。第一家公司只有我一个人真正从事这个行业的,我觉得数据分析是一个团队的力量,他可以一群人在一起头脑风暴,可以互怼,只有互怼才能怼出成效,对企业产生价值。


   2017年的春节前思考自己接下来的路,提前辞职回来过了一个春节。春节结束之后,2月12号来到北京开始思考自己接下来的方向,接下来到底该从事什么工作。然后进入到一家互联网公司,这里面有数据分析小组,基本都是统计学的,我觉得我可以从当中学到一点知识。进去之后看到同事们做的东西,就觉得原来统计学可以这样用,这就是另外一个不得不说的故事,感觉自己瞬间被惊到了。现在自己也确实是一个职场人,我觉得如果要走进这条路,我也推荐两本书,一本书《女士品茶》,发现问题、解决问题,从而提出一些有针对性的问题。还有一本是《从零到一》,我觉得初学者可以好好看一看这两本书,了解当中的逻辑思维,或者一些有趣的故事,也是比较实用的。


   在大学本科中学了一些理论的技术知识和一些软件的应用,其实学得比较多,也比较杂,自己一直在思考一个问题,我该怎么用到我的实际工作当中。所以,就来到了CDA,看一看它到底是怎么跟企业结合起来,从而产生自己的价值。


   最后,我想说的是,著名的互联网人士说了一句话,当你看到一个问题的时候,你不需要去问别人,有机会就去做。


   最后祝大家出走半生,归来仍是少年。谢谢大家!


   主持人:下面有请张宁女士跟大家分享“美女的数据分析师之路”有请!


   张宁:尊敬的各位来宾,大家下午好!非常荣幸可以站在这里和大家分享我对于商业数据分析的学习历程。


   其实“美女”这个词它就是一个噱头,就是勾引大家过来听我作这一段简短的演讲。我觉得不少人到会场看见我的时候可能会失望。但是,不管你的感觉如何,我恳请大家可以耐心地听我讲完。


   说一下我的基本情况,我的名字叫做张宁,我目前在美国的迈阿密大学念的是商业信息系统管理和会计双学位,我目前是本科大三学生,利用暑假这段时间我报名参加了CDA的培训课程,以及我目前在安永中国战略咨询部门进行实习。


   很多人会不理解为什么一个女孩子会对这种偏理科的商业数据分析和IT背景行业有浓厚的兴趣?是不是家里面有人会干这个工作?然而,我想告诉你的是,我家里没有一个人从事这方面行业的,甚至连我自己在上大学之前也从来没有想到我会涉足于IT行业。


   可能小的时候我会做梦梦到一些当女黑客或者说女程序员的梦想,但是随着时间的流逝和学习压力的增大,这种梦想也渐渐抛之脑后。直到大一我上过一个关于商业数据分析和统计学的基础课程,我们当时用的软件叫做GNP,通过和教授的沟通和学习,我渐渐对这个充满逻辑的学科感兴趣了。真正让我花时间努力钻研这个数据分析是让学习了更高阶的课程、掌握了更高阶的软件之后,大二的时候我学习了SAS等编程语言,我就开始彻底爱上了商业数据分析。


   我觉得数据分析真的是一个很神奇的东西,平时我们会对一些生活中很零散的数据束手无策,但是数据分析可以让一些零散的语言,会让一些非常呆板的数据通过一个个可视化图形建立一个个可视化模型,会解决我们生活和学习中的一些问题,并做一些预测,所以我觉得这方面非常得神奇。它是一个团队协作的方法解决这个问题。


   今年4月份,我和我的团队参加了一个全美范围内高校数据分析比赛。就是拿美国一个公司的真实数据,让参赛大学生以团队的形式从数据中挖掘出可用的价值。从主题的制定、软件的利用、模型的制作、数据的结果和商业价值的结合,最后得出有利于公司发展的商业结论。所有的这些都是我和我的团队一手完成的。最后我们非常荣幸地进入了决赛,获得前十名的好成绩。虽然对我们来说只是事业起步的第一步,但是这次难忘的经历,让不止我,还有我的团队深深地爱上了数据分析这个行业,也让我在未来的生活与工作当中懂得如何与团队更好地相处,同时自然而然地多角度考虑问题。


   我相信在平时的学习生活当中,我们总会遇到各种各样的问题。比如说我开一个杂货铺A,我的邻居开了一个杂货铺B,这两个杂货铺都是服务于整个社区的。但是虽然时间的流逝,我发现社区的居民都喜欢去杂货铺B买东西,我不禁在想到底是为什么。所以,通过一系列的分析和应用,我可以得出原来这个社区的居民更喜欢杂货铺B的东西。所以说,商业数据分析的本质就像这个小故事当中一样,是可以通过一系列的数据分析来分析你的目标客户的行为。


   说多数据的学习方法,我觉得就数据本身而言,只有种种机器学习的掌握,你所能看得见、摸得着、学得到的其实也就是一些机器学习。比如我们所说的SQL、或者SAS,这些都是我最近一直在学的东西。但是对于商业数据本身来说,我觉得毕竟还是要跟商业挂钩的,所以我觉得商业数据分析最重要的是清楚整个项目的需求是什么,然后还需要用足够的时间,高效的了解所给出的数据,最后才是机器学习和商业意图的结合。


   举一个最具体的例子,在今年的数据分析比赛中,主办方给我们的团队提供了一个美国最大的票务服务网站的数据,我记得这个数据的体量是一亿体量的数据,需要我们这个团队来合作完成。所以说拿到这个数据以后,对于我们来说,最重要的是要了解这个网站真正需要我们得出的是一个怎样的结论。我想作为一个企业,他最想知道的是哪一个客户群会给公司带来最大的利润,因为所有的企业当然都是觉得利润至上。所以,针对这个问题,我们用各种各样的机器学习手段,最后得出了1%的顾客为公司带来了20%的利润这样的结论。所以说,针对这1%的顾客,我们又运用机器学习的方法,来计算出这1%的顾客的具体行为,比如说这些顾客的职业是什么,他有没有家庭,他有没有小孩,他住在美国的哪个方向,是西岸、东岸还是中部?通过这一系列模型的建立和结论的得出,我们也方便这家票务网站公司使用有针对性的营销手段。


   下面谈一谈我对这个行业的理解。身处中美这两个国家,我的感受还是很强烈的,从美国而言,商业数据分析这个行业在美国当中属于一个青壮年发展状态,虽然说它还没有到达中年这么成熟,但是它的发展已经具备的一定的条件,也经历了一段很长的时间。可是对于我们中国来说,目前我们中国的高校没有一家是开设有关商业数据分析这个具体课程的,而且在这个行业,我们的就业缺口非常大,这也就给我和在座你们提供了一个非常绝佳的机会和广阔的平台。


   在我这个暑假参加CDA的课程当中,虽然说很遗憾,因为报名人数不足,我并没有参加到我想参加的SAS课程,但是我会调剂到其他课程之后,我突然感受到其实商业数据分析最最重要的并不是机器学习的使用,我觉得每一个软件都有自己本身的优势和劣势,而我们学习这节课最最重要的一点是跟着老师可以规范你在考虑这个商业问题过程中的思路和流程。


   在这里我也希望大家可以在未来的生活中更多的挖掘商业数据分析的真正乐趣,我也非常乐于和大家分享。


   我的分享经历就到这里。谢谢大家!


   主持人:谢谢张宁!最后有请到的是CDA的工作者樊宇亮先生,他所分享的题目是“为CDA人服务”。


   樊宇亮:今天我为大家分享的题目是“为CDA人服务”。先自我介绍一下,我是一名CDA的工作者,已经有五年的时间。


   在分享之前,给大家看两封信,这两封信是我2015年创办三个月的就业班以来,每一期就业班毕业都会给学员写的亲笔信。内容就不读了,只是想通过这封信唤起大家对CDA的回忆。

   进入今天的主题,为CDA人服务,谁是CDA人?我们为谁服务?这很重要,我认为CDA人是他们,所有从事或参与数据分析和大数据的人们都可以叫CDA人,所有参加过CDA俱乐部活动的人,所有CDA的持证者,以及每一个参加过CDA培训的学员。当然还有今天在场的各位。


   这么多CDA人,要做些什么?我们要做互联网、电商、金融。我们怀有用数据变革世界的信仰,让政府变得更加廉洁,让社会变得更加透明公正,让科技更加迅猛发展,让企业更加成功。


   为了实现这样的愿景,CDA要为CDA人做哪些事情?这是深圳、上海、成都、合肥、北京、长沙、西安,我们为身处各地的CDA人提供一个免费的交流空间,让大家即使身处各地,也能找到CDA人的家。大家能够在这个家里面去自由地交流技术,分享知识,聊天叙旧。


   这还是深圳、重庆、成都、北京,我们每一个月都会组织1—2场线下交流会在各地,我们会邀请CDA人一块过来参加,大家增长知识、开拓视野。我们还会不断开发新的技术、新的课程,会免费或者低收费的提供给所有的CDA学员和朋友们。当然,还有今天周磊周总介绍的猎头服务,我们会不间断地更新岗位,给大家提供好的企业推荐服务,也帮助企业去招收人才。当然我们的服务还在开发当中,但是我们坚信CDA能够为所有的CDA人提供最优质的服务。


   CDA人要为CDA和CDA人做什么?CDA人最先做的应该是在各自的岗位上兢兢业业提供技术技能。身为CDA人,也要弘扬互帮互助的情况,CDA人能够在工作上互相帮助,能够在技能上互相探讨分享,CDA也想邀请老学员回来分享技术,讲授技术,当然这一切也可以是有偿的。也希望大家能够经常登录CDA.CN参与技术讨论,让我们变得更加完善。CDA人总要记得我们原来有一句话叫背后有我们CDA一家人。

最后,希望大家能够在心里跟我一块念出我们的主题:为CDA人服务。谢谢各位!





二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据分析师行业峰会 CDA数据分析师 中国数据分析师 CDA数据分析 数据分析师行业

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-28 16:54