楼主: 浪子彦青
12489 116

[数据挖掘新闻] 大数据与数据挖掘的区别_大数据与数据挖掘的关系?   [推广有奖]

院士

39%

还不是VIP/贵宾

-

威望
1
论坛币
3261 个
通用积分
127.6558
学术水平
74 点
热心指数
86 点
信用等级
63 点
经验
27315 点
帖子
1718
精华
0
在线时间
421 小时
注册时间
2016-6-4
最后登录
2021-2-1

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
大数据数据挖掘的区别_大数据与数据挖掘的关系?

先不装B,直接给我的答案:

babe2404820449e59e30c2948c2746b7_th.jpg



从概念上可以认为,大数据分析是数据挖掘的一个子集。在通常的概念下,他们之间是有差别的,但是严格意义下,大数据的所有成果都可以纳入数据挖掘的成果范畴。
  有时候,人们把数据挖掘等同于大数据分析,而又把大数据的一些理想情况,如高效度、高速等移加到数据挖掘的实践中去,造成了一些认知上的错误。
  涉及大数据的问题,目前更多的是工程方面的,重点在于存储和计算力两个方面;而数据挖掘的问题,很多仍在探索阶段,不成熟,精度方面也不能保证。因此,用大数据的方法,并不能直接解决数据挖掘存在的困难。不是所有的学术问题,数据量大了都能解决。
  大数据技术首要的是提供存储和计算能力,其次是洞察数据中隐含的意义。前者依赖于硬件设备的升级,后者依赖于数据挖掘算法的不断优化创新。



u=343719499,3295659268&fm=21&gp=0.jpg



我们处理许多问题的核心思想在于样本选取和结果选取:

样本选取:从很久以前到现在,我们获取数据的能力以及分析数据的能力都是很有限的,这就导致,很多数据我们是无法在我们需要的时候采集到的,举一个例子:人口普查。近代美国要求10年进行一次人口普查,但是随着人口的增长速度越来越快,到后来统计出国家的大致人口都需要13年了。。因此不能采用普查。因此我们必须使用另一种经典的方法,并以此方法达到通过获取少量数据就能够分析大规模问题的目的——抽样。我们都知道抽样调查是有各种各样的要求和准则,而且合理性也经常不如人意,但是在之前获取数据难度很大的前提下(只能亲自去看,一个一个人工考察),这种方法的确赋予了我们处理大规模数据的能力:从里面完全随机的(我们都知道这是不可能的)选择一些正确的(数据完全正确也是不可能的)数据进行分析。

样本分析:通过上述介绍的抽样方式,我们获得了我们分析问题所需要的数据。我们现在要开始利用它们,那么怎么利用呢?数据可以是很简单的,例如长度,温度,时间,重量等等;也可以是很复杂的,一本书,一张图,一个石头。之所以说这些数据复杂,是因为它们是由我们提到的诸如重量长度等等简单的数据构成的。那么,如果我们要分析石头的话,将会变得很困难——因为要处理的数据种类实在太多了,各种数据之间还存在这样那样的影响。这让我们计算能力严重不足的祖先们(只有笔和算盘,各种函数和公式都么有发明。。)无比的抓狂。。。因为等我们用简单粗暴的方式算出来了以后,数据的有效期很可能已经过了(参见前面说的人口普查数据)。因此我们又发明了一个牛逼而经典的方法——建模。我们采用几个对描述这个对象很关键的数据来代替所有的数据,这样,计算量和计算难度都有客观的改善。

上面介绍的就是我们传统的数据获取和处理方法,下面就要讲一下数据挖掘了。

为什么我们要挖掘数据,我个人认为是因为我们现在获取数据的难度大大地降低了,所以我们有了很多很多很多的数据了- -,看着都要吐了。。。是的。。

正是因为看着都要吐了,所以我们不想看了,我们想要不用人脑,而让计算机来帮我们找到数据的价值,于是我们就要用数据挖掘方法了,也就是肖智博提出来的:数据挖掘就是从海量的数据中发现隐含的知识和规律。所以数据挖掘的前提和大数据的前提是一样的,就是海量数据。所以就方法而言,二者是很类似的。

我们现在总是提的大数据,我认为主要是一种思路:

1.不使用抽样的数据,而采用全部的数据:这里我指的全部的数据是完全所有的数据,包括正确的和不正确的数据都要采用。噪声和错误数据同样包含着有用的信息。

2.不关心为什么,只关心是什么:因为我们有了海量的数据 ,因此我们通过大数据统计出的结果应该是具有相当程度的普适性的。所以把这种现象-结果拿去套就行了。如果探究和证明因果关系的话,通常是极为困难的。一个例子就是经典的啤酒和尿布,从数据中获得这种结果很简单,把它们放在一起就能增加销量从而达到沃尔玛的目的,而去查明原因则费事的多。

3.相比数据分析方法而言更注重数据获取:换一种说法就是数据为先。因为现在计算机太牛逼了,所以只要我们想到办法,它就能替我们干相应的活。基于此,我们要做的就是获取更多的,更全面的数据来让计算机分析。例如国外快递公司在车上装传感器来帮助快递调度,劳斯莱斯公司在飞机发动机上装传感器并通过历史数据和实时数据预先预测潜在故障并提前检修的例子。大数据思维模式中,数据为我们提供最多的可能和最大的价值,所以着重获取数据。

说了这么多,我想说的就是数据挖掘可以概括为:在我们掌握的数据多了以后,把数据交给计算机分析的方法的集合。而大数据则是跳出我们的传统数据分析和处理方法框架的一种新思维。一种思维和一类技术比起来,确实是要虚很多,而且思维要付诸实现,必然是要以技术为基础的。但是正是由于思维方式的不同,我们可以从数据中获得更多的东西,比如对之前认为没有价值的噪声和错误数据的分析,或者对现象的重视而意外发现的一些有意思的结果等等。。

因此,我个人认为,大数据是我们在不断发展数据挖掘技术的过程中诞生出来的一种新思维,这种思维的实际应用以数据挖掘技术为基础,并可以促进我们开发出更多的数据挖掘技术。。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据挖掘 大数据 数据挖掘技术 数据挖掘方法 数据挖掘算法 大数据与数据挖掘的区别 大数据与数据挖掘的关系 大数据与数据挖掘不同点 大数据分析 数据挖掘技术

回帖奖励 +2

以山西开矿的煤老板为例:

开矿的前提是有矿,包括煤矿的储藏量,储藏深度,煤的成色。

之后是挖矿,要把这些埋在地下的矿挖出来,需要挖矿工,挖矿机,运输机。

之后是加工,洗煤,炼丹,等等。

最后才是转化为银子。

数据行业十分类似:

挖掘数据的前提是有数据,包括数据的储藏量,储藏深度,数据的成色。

之后是数据挖掘,要把这些埋藏的数据挖掘出来。

之后是数据分析输出,要把这些数据可视化输出,指导分析、商业实践。

直到这一步,才创造了价值。

所谓的大数据,大约就是说现在有座正在形成的巨型矿山,快去抢占成为煤老板吧,下一个盖茨兴许将在这里诞生。

使用道具

藤椅
dlcm121 发表于 2016-12-6 20:00:47 |只看作者 |坛友微信交流群

回帖奖励 +2

谢谢分享。。

使用道具

板凳
xn121 发表于 2016-12-8 18:17:43 |只看作者 |坛友微信交流群

回帖奖励 +2

感谢分享

使用道具

报纸
franky_sas 发表于 2016-12-14 12:52:35 |只看作者 |坛友微信交流群

回帖奖励 +2

感谢分享

使用道具

地板
inspirefm 在职认证  发表于 2016-12-14 22:12:14 |只看作者 |坛友微信交流群

回帖奖励 +2

谢谢分享受益很多

使用道具

7
inspirefm 在职认证  发表于 2016-12-14 22:13:20 |只看作者 |坛友微信交流群
我不懂 但知道楼主是牛人 我先默默的学 学好再来作答

使用道具

8
千指之觞 在职认证  学生认证  发表于 2016-12-14 22:35:20 |只看作者 |坛友微信交流群

回帖奖励 +2

谢谢分享受益很多

使用道具

9
逸水清尘1 发表于 2016-12-14 23:16:16 |只看作者 |坛友微信交流群

回帖奖励 +2

感谢分享哈

使用道具

10
yzharold 发表于 2016-12-15 23:52:46 |只看作者 |坛友微信交流群

回帖奖励 +2

thanks for sharing

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 15:26