人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › 数据分析与数据挖掘 › 关于大数据与数据挖掘的关系

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: 浪子彦青

2155 0

[数据挖掘理论与案例] 关于大数据与数据挖掘的关系 [推广有奖]

1关注
168
粉丝

院士

39%

还不是VIP/贵宾

威望: 1 级
论坛币: 3261 个
通用积分: 127.6558
学术水平: 74 点
热心指数: 86 点
信用等级: 63 点
经验: 27315 点
帖子: 1718
精华: 0
在线时间: 421 小时
注册时间: 2016-6-4
最后登录: 2021-2-1

楼主

浪子彦青

发表于 2016-12-3 16:28:37 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

我对这个问题其实没有什么特别的看法，只是在此回忆一些读研究生时我老板的话。
1、大二的时候实验室老板给上数据库的课，讲课时发表过一些关于大数据的看法，大概意思是：其实大数据并不是什么新鲜的玩意，很早就有了。只不过最近几年又有人冷饭热炒把它翻出来，也就是在炒作。炒作好了就可以向国家汇报，申请一些自然科学基金。
2、（这一段是实验室内部老板做的一个内部报告，只把最不重要的并且在其他场合也讲过的一些观点拿出来）大数据其实并没有一个特别明确的概念，多大的数据算大数据？现在并没有一个统一的标准。20年前，几百兆的数据看起来就很大；几年前我们觉得几GB的数据算大数据；现在我们觉得几TB的数据才能叫大数据。大数据的标准是在计算机计算能力发展的情况下不断变化的。（老板在报告里曾经给出过一个我觉得比较靠谱的定义，但是不知道有没有发表出来）
3、对于大数据是不是数据挖掘的延伸这个问题，我觉得两者并没有什么关系。大数据带来的问题是因为越来越多的数据产生出来而自然引发的一系列的在包括数据库系统、计算方法等基础问题上现有工具无法有效处理的问题；而数据挖掘则是在数据基础上进行知识发现然后产生价值的过程。大数据与数据挖掘并不存在明显的谁是谁的延伸的问题，也并没有多少相似的地方。

硬要说两者有何关系的话，可以这样理解：
大数据带来的挑战主要是现在技术基础无法满足需求。比如传统上我们觉得一个亚线性时间算法不错，可是拿到大数据上面，亚线性时间也不行了，这就是数据量的增长对于整个计算机科学界提出的挑战，你说你有一个O(log(n))的算法，那放到大数据身上也是不管用的（指的是不能分布计算的场景，能分布计算的话只要多搞几台机器（像MapReduce那样），分散开来变成“小数据”之后也就不叫大数据了）。由此给数据挖掘带来的问题就是很多数据挖掘算法即使在传统概念上的时间复杂度很低，现在也不能满足要求了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏2 回帖

关键词：数据挖掘大数据 MapReduce 数据挖掘算法 reduce 数据库系统关于大数据与数据挖掘的关系大数据分析数据挖掘大数据是不是数据挖掘的延伸

[数据挖掘理论与案例] 关于大数据与数据挖掘的关系 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[数据挖掘理论与案例] 关于大数据与数据挖掘的关系 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群