楼主: 浪子彦青
2155 0

[数据挖掘理论与案例] 关于大数据与数据挖掘的关系 [推广有奖]

院士

39%

还不是VIP/贵宾

-

威望
1
论坛币
3261 个
通用积分
127.6558
学术水平
74 点
热心指数
86 点
信用等级
63 点
经验
27315 点
帖子
1718
精华
0
在线时间
421 小时
注册时间
2016-6-4
最后登录
2021-2-1

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
我对这个问题其实没有什么特别的看法,只是在此回忆一些读研究生时我老板的话。
1、大二的时候实验室老板给上数据库的课,讲课时发表过一些关于大数据的看法,大概意思是:其实大数据并不是什么新鲜的玩意,很早就有了。只不过最近几年又有人冷饭热炒把它翻出来,也就是在炒作。炒作好了就可以向国家汇报,申请一些自然科学基金。
2、(这一段是实验室内部老板做的一个内部报告,只把最不重要的并且在其他场合也讲过的一些观点拿出来)大数据其实并没有一个特别明确的概念,多大的数据算大数据?现在并没有一个统一的标准。20年前,几百兆的数据看起来就很大;几年前我们觉得几GB的数据算大数据;现在我们觉得几TB的数据才能叫大数据。大数据的标准是在计算机计算能力发展的情况下不断变化的。(老板在报告里曾经给出过一个我觉得比较靠谱的定义,但是不知道有没有发表出来)
3、对于大数据是不是数据挖掘的延伸这个问题,我觉得两者并没有什么关系。大数据带来的问题是因为越来越多的数据产生出来而自然引发的一系列的在包括数据库系统、计算方法等基础问题上现有工具无法有效处理的问题;而数据挖掘则是在数据基础上进行知识发现然后产生价值的过程。大数据与数据挖掘并不存在明显的谁是谁的延伸的问题,也并没有多少相似的地方。

硬要说两者有何关系的话,可以这样理解:
大数据带来的挑战主要是现在技术基础无法满足需求。比如传统上我们觉得一个亚线性时间算法不错,可是拿到大数据上面,亚线性时间也不行了,这就是数据量的增长对于整个计算机科学界提出的挑战,你说你有一个O(log(n))的算法,那放到大数据身上也是不管用的(指的是不能分布计算的场景,能分布计算的话只要多搞几台机器(像MapReduce那样),分散开来变成“小数据”之后也就不叫大数据了)。由此给数据挖掘带来的问题就是很多数据挖掘算法即使在传统概念上的时间复杂度很低,现在也不能满足要求了。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据挖掘 大数据 MapReduce 数据挖掘算法 reduce 数据库系统 关于大数据与数据挖掘的关系 大数据分析 数据挖掘 大数据是不是数据挖掘的延伸

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-24 16:29