论坛经管答疑系列专题2:毕业季.经管职场及求职精彩问答!我的前途我做主
论坛经管答疑系列专题3:玩转计量:你不可不知的30个经典问答+10牛贴
时隔一月,龟宝又来。这恰逢咱论坛改版第一辑专题,说啥好呢?这次给大家带来的夏季专场内容是:请看标题!——>对,这次我们来说数据。
数据有啥好说的?那可不!在咱五区混迹的菜鸟也好大牛也罢,都主要是学统计和计量的,你说这辛辛苦苦的读了四年的大学为啥?最终还不是需要为今后的就业考虑。无论是想要留校继续专攻学术,还是出去闯荡世界,估摸着大多数的童鞋还是需要和数据打交道。要是你今后的职位头衔印着:Data Scientis,那别提多带感了!
不知大伙留意否,九月在北京,咱经管之家将打造一场“数据分析千人巅峰盛宴”:相约911-2015中国数据分析师行业峰会届时将会有在数据技术有顶级研究的先行者们来分享他们的经验。
废话不多少,在数据上,咱就说数据事。先来普及一下知识:
PART ONE 做数据必知五条!
Q1:什么是大数据?
A:大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
特点:数据量大、数据种类多、 要求实时性强、数据所蕴藏的价值大。对你没看错,光有量也不能称作合格的大数据!
Q2:大数据与什么专业有关?
A:传统的数学、统计学,就与之十分接近。后来的计算机、信息处理等等,也都与之密切相关。经济学中早就大量运用统计和数据。即使在历史学中,数据资料的运用也越来越广泛。
Q3:大数据能为我们做什么?
A:说到大数据的应用,主要有两个:精准化的定制和预测。
- 精准化的定制主要是针对供需两方的,获取需方的个性化需求,帮助供方定准定位目标,然后依据需求提供产品,最终实现供需双方的最佳匹配。
- 预测则主要围绕目标对象,基于它过去、未来的一些相关因素和数据分析,从而提前做出预警,或者是实时动态的优化。
Q4:大数据不是万能的吧?什么是它不能做的?
A:
1)大数据不能对具体行为作出精确预测
事实上,人们的社会行为具有不可预测性。甚至我们不妨可以定性地归成一个大数据测不准原理:人和事件,如果放到越大的空间和时间范围,则是越可以精确预测的;如果放到越小的空间和时间范围,则是越不可以精确预测的。
- 举个栗子:我们几乎可以在100%的程度上预测一个人24小时的范围内会吃饭,但若精确到某一分钟,则几乎不可能预测准确。进一步我们会发现,利用更多过去一段时间的数据,能够帮助我们提高预测某半个小时内是否吃饭的几率,但如果把时间精确到某一分钟,则更多的数据几乎提高不了预测的准确性。
3)大数据不能预测新业务
不能从大数据的相关性直接得出结论,而是要先确定业务逻辑,再用数据相关性去验证。数据只是行为的结果而不是相反,大数据之所以能够辅助预测,是因为人的行为具有规律性,一个具有朝九晚五、周末大休规律的白领,行为数据才会呈现出以日、周、月、年为周期。创新业务,也就是跟过去不一样的业务,因此,大数据是没法预测新业务的,也没法根据数据分析确定新出现的业务关联性是临时的,还是可持续的。
Q5:数据分析和数据挖掘的区别是什么?
A:
- 从分析的目的来看,数据分析一般是对历史数据进行统计学上的一些分析,数据挖掘更侧重于机器对未来的预测,一般应用于分类、聚类、推荐、关联规则等。
- 从分析的过程来看,数据分析更侧重于统计学上面的一些方法,经过人的推理演译得到结论;数据挖掘更侧重由机器进行自学习,直接到得到结论。
- 从分析的结果看,数据分析的结果是准确的统计量,而数据挖掘得到的一般是模糊的结果。
“数据分析、数据统计”得出的结论是人的智力活动结果,“数据挖掘”得出的结论是机器从学习集(或训练集、样本集)发现的知识规则。“数据分析”需要人工建模,“数据挖掘”自动完成数学建模。
PART TWO 想要成为数据分析师,这些你不能不知
A:数据分析师更注意是对数据、数据指标的解读,通过对数据的分析,来解决商业问题。主要有以下几个次层次:
1)业务监控:诊断当前业务是否正常?是否存在问题?业务发展是否达到预期(KPI)?如果没有达到预期,问主要问题在哪?是什么原因引起的?
2)建立分析体系:这些数据分析师已经对业务有一定的理解,对业务也相对比较熟悉,更多帮业务方建立一套分析体系,或者更高级是做成数据产品。例如:营销活动。分析师会告诉业务方,在活动前你应该分析哪些数据,从而制定恰当的营销计划。在营销过程中,你应该看哪些数据,从而及时做出营销活动调整。在营销活动,应该如何进行活动效果评估。
3)行业未来发展的趋势分析:这应该是数据分析师最高级别,有的公司叫做战略分析师/商业分析师。这个层次的数据分析师站的更高,在行业、宏观的层面进行业务分析,预测未来行业的发展,竞争对手的业务构成,帮助公司制定战略发展计划,并及时跟踪、分析市场动态,从而及时对战略进行不断优化。
☆主要技能要求:数据库知识(SQL至少要熟悉)、基本的统计分析知识、EXCEL要相当熟悉,对SPSS或SAS有一定的了解,对于与网站相关的业务还可能要求掌握GA等网站分析工具,当然PPT也是必备的。
Q7:新人如何学好数据分析?
A:零基础学员建议先学习理论基础知识。例如:统计学,概率论和数理统计,计量经济学。然后再学习软件,从最基本的人人必会的excel,到spss,再到SAS。
Q8:CDA与CPDA的区别
A:
【关于CPDA】
CPDA (CERTIFIED PROJECT DATA ANALYST) 全名叫项目数据分析师,原先是信息产业部在组织,后来由中商联数据分析专业委员会和工信部教育与考试中心主管,内容主要针对的是基于企业在投资、经营、管理领域的分析
【关于CDA】
CDA(CERTIFIED DATA ANALYST)全名是数据分析师,由人大经济论坛主办。主要是讲数据分析方法、技术和软件操作为主。
课程包括:
1、统计概率基础;
2、数据分析模型方法;
3、软件、工具的运用。
如果这些技术没有,也不可能会玩数据分析。所以,CDA主要是针对数据分析师必备的技术性培训,是从数据的获取、储存、整理、清洗、分析,检验到结果报告一个整体的流程,以及数据分析一些软件的操作。
总结是:
1. 愿意从事投资行业的,可以学CPDA
2. 愿学习数据分析,数据挖掘技术的可以选择CDA
Q9:有哪些常用的数据分析方法?
A:数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析等。
①分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。
②回归分析。回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。
③聚类。聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。
④关联规则。关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。
⑤特征。特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。如营销人员通过对客户流失因素的特征提取,可以得到导致客户流失的一系列原因和主要特征,利用这些特征可以有效地预防客户的流失。
⑥变化和偏差分析。偏差包括很大一类潜在有趣的知识,如分类中的反常实例,模式的例外,观察结果对期望的偏差等,其目的是寻找观察结果与参照量之间有意义的差别。在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。
还有更为详细的介绍,请用力戳:https://bbs.pinggu.org/thread-2290660-1-1.html
Q10:常用的数据分析软件又有哪些?
A:最常用的是spss,属于非专业统计学的,当然,没有统计功底还是很难用的。sas是专业的统计分析软件,需要编程用,都是专业人士用的。
还有,数据分析中的数据挖掘,可以使用spss公司的clementine,经济类的计量经济学s-plus,state。软件其实不重要,关键看你要解决什么问题,Excel与SPSS用的多一点,如果侧重在数据可视化的话需要用D3或者Python。如果是处理大数据量的要求,那就需要用到BI工具,数据仓库之类的东西了。 当然,还可以给你推荐FineExcel试用一下。功能强大而且操作一点都不负责。
PART THREE 不会数据挖掘?Oh ,No!
A:在国外很好;在国内,还处于起步阶段,真正的数据挖掘运用还比较少,找工作还是比较容易,学这个方向的,基本上出来是做数据处理、数据分析,或是有些干脆做软件开发师。
如果找数据挖掘的工作,地点也很重要,国内发展比较好的城市是北京和上海,广东也有少数。一般来说,比较大型的企才有投有数据挖掘工程师这个职位,其它企业如果需要,都是外包给专门的数据挖掘公司来做的。
比较能用得上数据挖掘的行业是大型网站、银行、医院,针对网站,一般要学习WEB挖掘,挺有前途,大型网站公司也会招这个职位。银行的数据挖掘也用得广,但它一般包给专业公司来做,有个方向叫商业智能,简称BI,觉得挺有前途的。应该是数据挖掘中以后会很热的行业
Q12:新人如何学习数据挖掘呢?
A:沈浩老师这么说——
数量统计知识方面:我认为统计思想是数学在实践中最重要的体现,但对于实际工作者最重要的是掌握统计思想,其实统计理论非常复杂,但实际应用往往是比较简单的!
掌握软件问题:从软件角度学,是非常好的思路,我基本上就是这样学的。我常说编软件的人最懂理论,否则编不出来,编软件的人最知道应用,否则软件买不出去;现在软件越来越友好,把软件自带案例做一遍,你会自觉不自觉的掌握软件解决问题的思路和能解决的问题类型;
数据仓库问题:OLAP和数据挖掘是数据仓库建立基础上的两个增值应用,从企业整体角度,数据挖掘应该建立在企业数据仓库完备的基础上。所以说数据仓库是针对企业级数据挖掘应用提出的,但我们应该记住,企业从来不是为了数据挖掘建立数据仓库,而是因为有了数据仓库后必然会提出数据挖掘的需求!现在随着数据挖掘软件的工具智能化,以及数据仓库和ETL工具的接口友好,对数据库层面的要求越来越少;
数学不好可能反应了一个人思考问题的方式或深入理解问题的能力,但数学不是工具是脑具,不断解决问题的过程可以让我们思考问题更数学化!
Q13:数据挖掘的应用领域有哪些?
A:目前擞据挖掘的应用领域包括以下八个方面:
金融、医疗保健、市场业、零售业、制造业、司法、工程和科学、保险业
在选择一种数据挖掘技术的时候,应根据问题的特点来决定采用哪种数据挖掘形式比较合适。应选择符合数据模型的算法,确定合适的模型和参数,只有选择好正确的数据挖掘工具,才能真正发挥数据挖掘的作用。
Q14:数据挖掘跟神经网络有什么关系?
A:神经网络是属于人工智能范畴的,但可以用于数据挖掘,比如通过一批样本数据,训练出神经网络模型,然后再去测试新数据。就是对数据挖掘中分类技术的一个应用。
数据挖掘就是从大量数据中挖掘有用的知识,神经网络就是一种有学习能力的类似人脑活动的技术,其实也是在提炼知识。数据挖掘和许多学科都有交叉,概率统计、数据库、机器学习等等。
Q15:数据挖掘有哪些经典算法?
A:一般数据挖掘算法分为两种,有监督和无监督算法,其中有监督算法主要有逻辑回归、决策树、神经网络等,无监督学习主要包括聚类、最邻近距离、支持向量机等不过这些都是比较通用的算法。
Q16:常用数据挖掘工具有哪些?
A: 市场上的数据挖掘工具一般分为三个组成部分:a、通用型工具;b、综合/DSS/OLAP数据挖掘工具;c、快速发展的面向特定应用的工具。
- 通用型工具占有最大和最成熟的那部分市场。通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型,其中包括的主要工具有IBM 公司Almaden 研究中心开发的QUEST 系统,SGI 公司开发的MineSet 系统,加拿大Simon Fraser 大学开发的DBMiner 系统、SAS Enterprise Miner、IBM Intelligent Miner、Oracle Darwin、SPSS Clementine、Unica PRW等软件。通用的数据挖掘工具可以做多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。
- 综合数据挖掘工具这一部分市场反映了商业对具有多功能的决策支持工具的真实和迫切的需求。商业要求该工具能提供管理报告、在线分析处理和普通结构中的数据挖掘能力。这些综合工具包括Cognos Scenario和Business Objects等。
- 面向特定应用工具这一部分工具正在快速发展,在这一领域的厂商设法通过提供商业方案而不是寻求方案的一种技术来区分自己和别的领域的厂商。这些工具是纵向的、贯穿这一领域的方方面面,其常用工具有重点应用在零售业的KD1、主要应用在保险业的Option&Choices和针对欺诈行为探查开发的HNC软件。
Q17:常用的加密算法有哪些?
A:
- DES(Data Encryption Standard):数据加密标准,速度较快,适用于加密大量数据的场合;
- 3DES(Triple DES):是基于DES,对一块数据用三个不同的密钥进行三次加密,强度更高;
- RC2和 RC4:用变长密钥对大量数据进行加密,比 DES 快;
- IDEA(International Data Encryption Algorithm)国际数据加密算法:使用 128 位密钥提供非常强的安全性;
- RSA:由 RSA 公司发明,是一个支持变长密钥的公共密钥算法,需要加密的文件块的长度也是可变的;
- DSA(Digital Signature Algorithm):数字签名算法,是一种标准的 DSS(数字签名标准);
- AES(Advanced Encryption Standard):高级加密标准,是下一代的加密算法标准,速度快,安全级别高,目前 AES 标准的一个实现是 Rijndael 算法;
- BLOWFISH,它使用变长的密钥,长度可达448位,运行速度很快;
Q18:数据挖掘的分类算法有哪些?
A:
- Bayes
- Lazy Learning
- Trees
Q19:朴素贝叶斯与决策树孰优孰劣?
A:朴素贝叶斯模型(NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC 模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。NBC 模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给 NBC 模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时,NBC 模型的分类效率比不上决策树模型。而在属性相关性较小时,NBC 模型的性能最为良好。
Q20:有什么入门书籍可以推荐?
A:关于入门的教材:SPSS和Clementine软件的说明和案例,都做一遍;《数据挖掘——客户关系管理的艺术》;《调查研究中的统计分析法》;《Excel高级应用与数据分析》;《数据展现的艺术》
PART FOUR 考证考证!Fighting!
A:有IBM PASW Modeler和SAS两个数据挖掘认证,你可以根据实际情况自己查一下。会编程对学习数据挖掘有一定的好处,但如果是走业务分析,编程不是必须的。
Q22:数据分析师又有哪些必备证书呢?
A:主要的有三种:CDA(注册数据分析师)证书、CPDA(项目数据分析师)、统计师,统计从业资格
☆Q23:三种数据分析师的证书各有什么区别?
A:
CDA——CDA数据分析师的就业前景可选择于通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研、教育等多个行业和领域。根据三个不同的等级胜任不同的数据分析工作任务。
CPDA——是以数据为依据,运用科学的计算工具,将经济学原理与数学模型结合,对项目现状及远期进行统计,分析,预测并转化为决策信息的专业人才。一般为项目相关工作使用。
统计师,统计从业资格——从事统计、调查、数据处理相关工作的职称考试,一般为统计局工作或事业单位统计工作使用。
Q24:CDA考试有啥要求?
A:有三挡考试——
LevelⅠ:统计概率基础知识,数据库基础知识,解决简单的数据处理与数据分析。
LevelⅡ:多元统计、数据挖掘、数据建模、数据库及商业智能等知识,利用软件进行复杂数据的处理和案例分析,并得出规范的数据报告。
LevelⅢ: 除以上知识点还包括数据挖掘高级算法,Hdoop,SAS与R编程技术等,利用工具完成复杂数据分析项目,做出报告、提供决策并管理团队执行部署。
招生对象及报考条件:
Level Ⅰ:本科及以上学历或从事数据分析工作1年以上。
Level Ⅱ:本科及以上学历并从事数据分析相关工作2年以上。
Level Ⅲ:本科及以上学历并从事数据分析相关工作5年以上。
Q25:楼主你为啥不介绍SAS和SPSS两个证书?光介绍数据分析师这块的?
A:咳咳,是这样的。因为楼主我,觉得这两个证书虽然也很有价值,但是对于软件还是应用为主,如果能拥有最好,但是不考能会用那也是一样能解决问题。而数据分析我个人觉得更多的是数据处理方法上的认可。楼主始终觉得脑袋比手贵~~观点偏颇,就等你辩驳!
一大波资料来袭!各位看客请自便!拿走不谢!
【免费分享】数据挖掘课件(厦门大学数据挖掘中心刘云霞)
【永久免费】小波变换最全入门教程,绝对适合初学者
几篇数据挖掘论文+数据挖掘课件(下载请留言)
数据挖掘商业案例分析及实现(分行业介绍常用的商业需求)!!!绝对是珍品!!!
【免费分享】数据挖掘资料(复旦大学)
数据挖掘加spss课件讲解详细【免费分享】【北京大学】
数据挖掘分享资料、数据分析、数据挖掘
〖素质笔记〗决策树之ID3、C4.5、C5.0等五大算法
最后当然要宣传一下我们的经管爱问啦!
欢迎大家关注我们的微信号:jgasker,我们将365天不间断为你推送最新,做劲爆的经济/金融/数据挖掘内容,也会精心选择精彩答疑来为你的学习排忧解难!
来,大声喊出我们的口号:
无所不问,有问共答
有经管问题,上人大经济论坛
每天在这里,找到N个经管问题的答案!