楼主: Mirror..
1259 0

[数据挖掘] 如何入门大数据(数据挖掘方面)? [推广有奖]

已卖:5份资源

院士

21%

还不是VIP/贵宾

-

威望
1
论坛币
67318 个
通用积分
10.5248
学术水平
502 点
热心指数
518 点
信用等级
460 点
经验
42800 点
帖子
2405
精华
2
在线时间
716 小时
注册时间
2014-11-10
最后登录
2019-4-21

初级学术勋章 初级热心勋章 中级学术勋章

楼主
Mirror.. 在职认证  发表于 2015-1-6 09:04:10 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

       首先你要学会搭集群(说道大数据我默认是hadoop那一套没人反对吧?)。先不要用高版本代码,用0.2.3,该版本保留了最初始但架构非常清晰的部分,比如master和slave架构,jobtracker和tasktracker,比如datanode和namenode.

  再往上就是大数据处理的两大核心部分:分布式计算和分布式存储。搞清楚这些,网上一搜,会发现,这尼玛就是谷歌分布式计算存储的山寨版本,好,恭喜你,现在终于可以一窥其角了。注意,一定要抠低版本的核心实现原理,因为高版本那些看似炫酷的架构都离不了低版本中那些核心架构的启发。

  分布式计算涉及到 mapreduce,mapreduce涉及到各种文本的分割,reducer分桶,各阶段的排序(如归并算法、堆排序算法的实现),二级索引的环形缓冲器的设计,reducer阶段涉及到多线程的map端拉取,还有非常重要的数据存储的序列化类的实现始末,数据写入时的dataqueue和 ackqueue,pipelines,block的分布原理,机架感知,容错等。再往上,便是2.0以后引入的YARN和HA,在这个层次,你会接触到更多很神奇的东西,比spark,Dooker,hive,protubuf,hbase,pig…会用这些,才算打好了基础。

  我觉得大数据只有打好了基础才能进行更高层次的学习。总结起来,大数据领域的处理分为实时计算和离线计算,基于不同的业务场景有不同的实现架构,但归根到底,hadoop才是源头。至于数据挖掘,和是不是基于大数据的有毛关系。问个问题,有两个大小分别为2T的日志,怎么比较它们是不是相同,给出不同的行数和具体内容。在海量数据面前,传统的工具就是个屁。

来源:知乎  作者:一棵苹果树


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据挖掘 大数据 MapReduce Pipelines pipeline 如何

只想做一个勤勤恳恳的搬运工

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-1 21:15