楼主: 东方祥
4765 4

[Hadoop] 一文理清:大数据、数据挖掘、数据分析、数理统计之间的关系_CDA网校 [推广有奖]

学科带头人

59%

还不是VIP/贵宾

-

威望
2
论坛币
653316 个
通用积分
46568.5461
学术水平
203 点
热心指数
253 点
信用等级
195 点
经验
54383 点
帖子
530
精华
6
在线时间
2342 小时
注册时间
2015-3-25
最后登录
2024-10-24

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

一文理清:大数据、数据挖掘、数据分析、数理统计之间的关系

来源:CDA社区


目录

一、基于大数据的数据分析方法

二、大数据分析常用工具一览

三、数理统计与数据挖掘的区别与联系

四、大数据时代企业该如何布局,个人该如何选择?



图片1.png



    基于大数据的数据分析方法的理论基础是数据挖掘和分布式计算原理。大数据具有海量、快速、多样化和有价值四个方面的重要特征,其海量特性使得数据分析时不可能用单台机器完成而是需要多台机器同时运算,也就是所谓的分布式运算。在大数据时代,大数据技术需要解决两个难题:一是海量数据在多台机器上的存储;二是解决如何对多台机器上存储的数据进行计算分析。大数据技术的基本原理还是聚类、分类、主题推荐等数据挖掘算法的内容,在基于大数据的数据分析方法中,有很多方法都是对原有算法的改进,将原来单机实现的算法改成多台机器的分布式计算。简单地说,基于大数据的数据分析方法就是分析工具不一样的数据分析方法,有的也加入了数理统计的思想。

二、大数据分析常用工具一览

1.Hadoop大数据生态平台

    Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

2.Spark,大数据分析的“瑞士军刀”

Spark 也是 Apache 基金会的开源项目,它由加州大学伯克利分校的实验室开发,是另外一种重要的分布式计算系统。它在 Hadoop 的基础上进行了一些架构上的改良。Spark 与 Hadoop 最大的不同点在于,Hadoop 使用硬盘来存储数据,而 Spark 使用内存来存储数据,因此 Spark 可以提供超过Hadoop100 倍的运算速度。但是,由于内存断电后数据会丢失,Spark 不能用于处理需要长期保存的数据。目前 Spark 完成了大部分的数据挖掘算法由单机到分布式的改造,并提供了较方便的数据分析可视化界面。

3.Storm,实时大数据处理工具

    Storm 是 Twitter 主推的分布式计算系统,它由 BackType 团队开发,是 Apache 基金会的孵化项目。它在 Hadoop 的基础上提供了实时运算的特性,可以实时地处理大数据流。不同于 Hadoop 和Spark,Storm 不进行数据的收集和存储工作,它直接通过网络实时地接收数据并且实时地处理数据,然后直接通过网络实时地传回结果。


三、数理统计与数据挖掘的区别与联系

1.数理统计与数据挖掘的联系

    从两者的理论来源来看,它们都来源于统计基础理论,因此它们的很多方法在很多情况下都是同根同源的。例如,概率论和随机事件是统计学的核心理论之一,统计分析中的抽样估计需要应用该理论,而数据挖掘技术的朴素贝叶斯分类就是这些统计理论的发展和延伸。

有的时候两者的一些方法还会出现混淆的情况,例如,主成分分析和回归分析。从严格意义上讲,这两种分析方法都属于数理统计分析方法,但在数据挖掘实战应用中也常常会用到这种方式,从这个角度讲,主成分分析和回归分析也是数据挖掘商业实战中常用的一种分析技术和数据处理技术。

2.数理统计与数据挖掘的区别

    更普遍的观点认为,数据挖掘是数理统计的延伸和发展,如果一定要加以区分,它们又有哪些区别呢?数据挖掘在如下几个方面与数理统计存在比较明显的差异。数理统计的基础之一就是概率论,在对数据进行数理统计分析时,分析人员常常需要对数据分布和变量间的关系作假设,确定用什么概率函数来描述变量间的关系,以及如何检验参数的统计显著性。但是,在数据挖掘的应用中,分析人员不需要对数据分布做任何假设,数据挖掘中的算法会自动寻找变量间的关系。因此,相对于海量、杂乱的数据,数据挖掘技术有明显的应用优势。

    数理统计在预测中的应用常表现为一个或一组函数关系式,而数据挖掘在预测应用中的重点在于预测的结果,很多时候并不会从结果中产生明确的函数关系式,有时候甚至不知道到底是哪些变量在起作用,又是如何起作用的。最典型的例子就是“神经网络”挖掘技术,它里面的隐蔽层就是一个“黑箱”,没有人能在所有的情况下读懂里面的非线性函数是如何对自变量进行组合的。在实践应用中,这种情况常会让习惯数理统计公式的分析师或者业务人员感到困惑,这也确实影响了模型在实践应用中的可理解性和可接受度。

    在实践应用中,数理统计常需要分析人员先作假设或判断,然后利用数据分析技术来验证该假设是否成立。但是,在数据挖掘中,分析人员并不需要对数据的内在关系做任何假设或判断,而是会让挖掘工具中的算法自动去寻找数据中隐藏的关系或规律。两者的思维方式并不相同,这给数据挖掘带来了更灵活、更宽广的思路和舞台。

    虽然上面详细阐述了数理统计与数据挖掘的区别,但是在企业的实践应用中,我们不应该硬性地把两者割裂开来,其实它们也无法割裂,没有哪个分析师会说:“我只用数据挖掘技术来分析”或者“我只用数理统计技术来分析”。正确的思路和方法应该是:针对具体的业务分析需求,先确定分析思路,然后根据这个分析思路去挑选和匹配合适的分析算法、分析技术,而且一个具体的分析需求一般都会有两种以上不同的思路和算法可以去探索,最后可以根据验证的效果和资源匹配等一系列因素进行综合权衡,从而决定最终的思路、算法和解决方案。

四、大数据时代企业该如何布局,个人该如何选择?

   数据分析师应对上述每种不同的数据分析方法都要了解,因为不同的数据分析方法适用的场景是不一样的,能解决的数据分析目标也是不一样的,例如生物行业用数理统计最多,电商行业用数据挖掘较多,当电商行业的数据量很大时,就要用基于大数据的数据挖掘算法了。在学习具体的数据分析方法时,主要要了解其使用的场景,当你在做具体的数据分析时就知道选择哪一种分析方法了。另外,在选择数据分析方法时,不要热衷于高深的方法,“不管白猫黑猫,抓住老鼠就是好猫”,要用最简单方法把问题解决,有的时候用最简单的描述性统计方法能解决问题,就不要用数据挖掘算法了。

   对于是否使用大数据分析方法,这个需要看企业的性质和将来的发展方向,一般不是所有的企业都具有进行大数据分析的可能,企业管理者不应迷失在大数据面前,而应根据自己的实际业务确立商业目标,有选择地获取数据,然后进行分析。面对大数据时代的到来,国内的数据分析师们最需要做的是和企业的管理部一起,探讨如何给企业的现在和未来做一个好的规划,看自己是否具有大数据分析的可能,如果有,则如何实现从现有的小数据分析向大数据分析转型,从人才到数据的准备,这些都需要有一个充分的思考过程才能确定。





学习交流:
如果你对学习数据分析、机器学习、深度学习人工智能感兴趣,欢迎来CDA数据分析社区流学习,我会在群里发布所有与人工智能和深度学习有关的有趣文章。CDA社区QQ群:346390869


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据分析 数据挖掘 数理统计 大数据 Hadoop大数据分析 统计

已有 1 人评分经验 收起 理由
kongqingbao280 + 20 精彩帖子

总评分: 经验 + 20   查看全部评分

沙发
Studio-R 在职认证  发表于 2017-2-22 15:51:49 |只看作者 |坛友微信交流群
在大数据时代,大数据技术需要解决两个难题:一是海量数据在多台机器上的存储;二是解决如何对多台机器上存储的数据进行计算分析。

使用道具

藤椅
开心果xxx 发表于 2017-2-22 15:53:40 |只看作者 |坛友微信交流群
当下,上至国家总理,下及普通老百姓,大家都在关注大数据,尤其是国务院《关于印发促进大数据发展行动纲要的通知》发布,大数据已上升为国家战略,数据驱动的大数据时代到来了,你准备好了吗?

使用道具

板凳
东方祥 企业认证  发表于 2017-2-22 17:05:31 |只看作者 |坛友微信交流群
【案例】:气象大数据分析
【案例】:针对XX高校学生管理信息系统中的学生选课
【案例】:Web海量日志大数据分析
【案例】:Sogou搜索日志数据之用户行为进行分析
【案例】:智慧高速大数据分析

使用道具

报纸
tianwk 发表于 2024-5-4 00:27:52 |只看作者 |坛友微信交流群
thanks for sharing

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-1 08:01