人大经济论坛 › 论坛 › 数据科学与人工智能 › 大数据分析 › Hadoop论坛 › 大数据分析的流程浅析之三：大数据分析算法简介

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

12 3 4 下一页

发帖

楼主: littlelianglian

12745 38

大数据分析的流程浅析之三：大数据分析算法简介 [推广有奖]

0关注
146
粉丝

贵宾

学术权威

72%

还不是VIP/贵宾

威望: 3 级
论坛币: 497776 个
通用积分: 9293.7569
学术水平: 355 点
热心指数: 303 点
信用等级: 328 点
经验: 105005 点
帖子: 3169
精华: 16
在线时间: 3268 小时
注册时间: 2013-9-4
最后登录: 2023-12-23

楼主

littlelianglian 发表于 2015-5-25 14:36:31 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

经过大数据的收集和整理后，就可以选用适当的大数据分析算法进行处理了，目前大数据主要的处理模式可以分为流处理和批处理两种，其中批处理是先存储后处理，而流处理则是直接处理。

流处理一般使用的大数据技术是基于hadoop的hbase和spark,其处理过程需要解决数据快速的插入和查询操作，并使用相应的算法进行及时的快速处理，这部分内容比较复杂，在当前的大数据应用也不是很广泛，将在后续的内容中介绍，此处仅介绍批处理的方式，也是大数据技术发展得较为完善的内容，也给大数据的商业应用带来了真实的商业价值。

基于hadoop的批处理过程，一般做法是先把清洗好的数据存放到hdfs上，然后根据数据和应用选择或者编写相应的大数据分析算法进行分析。这些大数据分析算法有两种办法获取：最常用的获取途径是直接使用hadoop框架的mahout软件，该软件实现了数据挖掘的分类、聚类和主题推荐等常用的大数据分布式挖掘算法。其中分类算法主要包括朴素贝叶斯算法(new bayes)、随机森林算法、logstic算法(SGD)和隐马尔科夫模型(HMM)等算法；聚类算法主要包括K-means（通用的大数据聚类算法）、Canopy（经常用来推断k-means类中的k值）、模糊K-means聚类和狄利克雷聚类等算法；主题推荐算法主要包括基于物品的协同过滤算法和ALS-WR并行算法等推荐算法。不同的大数据分布式挖掘算法有不同的适用范围，其具体细节也是大数据分析师必须掌握的，这些内容在人大经济论坛的大数据分析师课程中将以案例的形式进行介绍，也是整个课程内容的重点，而学习这些和使用SPSS统计软件进行数据分析一样容易，不需要太多的编程知识。

还有一种办法是由大数据分析师开发的基于hadoop框架的mapreduce大数据分析算法。由于不同的行业应用，其业务逻辑会存在差异，这就需要编写相应的大数据分析算法来解决，当然这需要一定的编程经验。为了使大数据更为方便地推广，hadoop在设计mapreduce编程模式时，特意为基于mapreduce程序设计过程编写了一套通用的模型，就象印制某种图案的模器那样，只需要往里面填入需要的内容，就可以实现mapreduce大数据算法开发，极大地降低了大数据开发的门槛，也使得hadoop受到广大的大数据分析人员的欢迎，这也是hadoop能在全球范围内迅速扩展的原因之一。

一般来讲，编写mapreduce大数据分析算法都是在数据整理的过程中需要，而得出最终的大数据分析结果，一般使用常用的mahout大数据分析算法来解决就可以了，因此作为一个优秀的大数据分析师，应把学习的重点放在业务逻辑的关注上，其次就是对mahout大数据分析算法的掌握，最后才是基于mapreudce编程思想的大数据分析算法设计，这个是也人大经济论坛大数据分析课程培训的主要思路。

CDA数据研究院

大数据中心

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏81 回帖

关键词：数据分析算法大数据分析数据分析大数据 MapReduce 技术价值

本帖被以下文库推荐

· 精华热门帖子|主题: 1618, 订阅: 45

CDA数据分析交流群 217748971

使用道具举报

沙发

littlelianglian 发表于 2015-5-25 14:45:04 |只看作者 |坛友微信交流群

大数据分析的流程浅析之一：大数据采集过程分析：https://bbs.pinggu.org/thread-3701681-1-1.html
大数据分析的流程浅析之二：大数据整理过程分析：https://bbs.pinggu.org/thread-3711492-1-1.html

已有 1 人评分	经验	收起理由
kongqingbao280	+ 10	精彩帖子

总评分: 经验 + 10 查看全部评分

使用道具举报

藤椅

may_jd 发表于 2015-5-25 16:18:20 |只看作者 |坛友微信交流群

使用道具举报

板凳

Crsky7 发表于 2015-5-25 17:21:21 |只看作者 |坛友微信交流群

作为一个优秀的大数据分析师，应把学习的重点放在业务逻辑的关注上，其次就是对mahout大数据分析算法的掌握，最后才是基于mapreudce编程思想的大数据分析算法设计

已有 3 人评分	经验	论坛币	学术水平	热心指数	信用等级	收起理由
kongqingbao280	+ 10					精彩帖子
fantuanxiaot	+ 30		+ 3	+ 3	+ 3	精彩帖子
daazx	+ 20	+ 5				精彩帖子

总评分: 经验 + 60 论坛币 + 5 学术水平 + 3 热心指数 + 3 信用等级 + 3 查看全部评分

使用道具举报

报纸

currantzhong 发表于 2015-5-25 19:42:00 |只看作者 |坛友微信交流群

贊。

使用道具举报

地板

alfredgump

发表于 2015-5-25 19:42:10 |只看作者 |坛友微信交流群

使用道具举报

7楼

czh_3104 发表于 2015-5-25 20:28:08 |只看作者 |坛友微信交流群

飘过。。。。。

使用道具举报

8楼

lzt341 发表于 2015-5-25 21:53:33 |只看作者 |坛友微信交流群

好！

使用道具举报

9楼

2010517155lpq

发表于 2015-5-25 23:17:41 |只看作者 |坛友微信交流群

使用道具举报

10楼

2010517155lpq

发表于 2015-5-25 23:18:33 |只看作者 |坛友微信交流群

......

使用道具举报

返回列表

12 3 4 下一页

发帖

本版微信群

加好友,备注cda
拉您进交流群

手机版 |

意见反馈 |

帮助 |

新手入门 |

用户手册 |

友情链接 |

如有投资本站、合作意向或投放广告，请联系：13661292478（刘老师）

联系客服

邮箱：service@pinggu.org 投诉或不良信息处理：（010-68466864）

京ICP备16021002-2号京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

大数据分析的流程浅析之三：大数据分析算法简介 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本帖被以下文库推荐

一级伯乐勋章

初级学术勋章

初级信用勋章

初级热心勋章

中级热心勋章

中级学术勋章

中级信用勋章

本版微信群

大数据分析的流程浅析之三：大数据分析算法简介 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本帖被以下文库推荐

一级伯乐勋章

初级学术勋章

初级信用勋章

初级热心勋章

中级热心勋章

中级学术勋章

中级信用勋章

本版微信群

扫码加我拉你入群