楼主: littlelianglian
12745 38

大数据分析的流程浅析之三:大数据分析算法简介   [推广有奖]

贵宾

学术权威

72%

还不是VIP/贵宾

-

威望
3
论坛币
497776 个
通用积分
9293.7569
学术水平
355 点
热心指数
303 点
信用等级
328 点
经验
105005 点
帖子
3169
精华
16
在线时间
3268 小时
注册时间
2013-9-4
最后登录
2023-12-23

一级伯乐勋章 初级学术勋章 初级信用勋章

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

经过大数据的收集和整理后,就可以选用适当的大数据分析算法进行处理了,目前大数据主要的处理模式可以分为流处理和批处理两种,其中批处理是先存储后处理,而流处理则是直接处理。


流处理一般使用的大数据技术是基于hadoop的hbase和spark,其处理过程需要解决数据快速的插入和查询操作,并使用相应的算法进行及时的快速处理,这部分内容比较复杂,在当前的大数据应用也不是很广泛,将在后续的内容中介绍,此处仅介绍批处理的方式,也是大数据技术发展得较为完善的内容,也给大数据的商业应用带来了真实的商业价值。


基于hadoop的批处理过程,一般做法是先把清洗好的数据存放到hdfs上,然后根据数据和应用选择或者编写相应的大数据分析算法进行分析。这些大数据分析算法有两种办法获取:最常用的获取途径是直接使用hadoop框架的mahout软件,该软件实现了数据挖掘的分类、聚类和主题推荐等常用的大数据分布式挖掘算法。其中分类算法主要包括朴素贝叶斯算法(new bayes)、随机森林算法、logstic算法(SGD)和隐马尔科夫模型(HMM)等算法; 聚类算法主要包括K-means(通用的大数据聚类算法)、Canopy(经常用来推断k-means类中的k值)、模糊K-means聚类和狄利克雷聚类等算法;主题推荐算法主要包括基于物品的协同过滤算法和ALS-WR并行算法等推荐算法。不同的大数据分布式挖掘算法有不同的适用范围,其具体细节也是大数据分析师必须掌握的,这些内容在人大经济论坛的大数据分析师课程中将以案例的形式进行介绍,也是整个课程内容的重点,而学习这些和使用SPSS统计软件进行数据分析一样容易,不需要太多的编程知识。


还有一种办法是由大数据分析师开发的基于hadoop框架的mapreduce大数据分析算法。由于不同的行业应用,其业务逻辑会存在差异,这就需要编写相应的大数据分析算法来解决,当然这需要一定的编程经验。为了使大数据更为方便地推广,hadoop在设计mapreduce编程模式时,特意为基于mapreduce程序设计过程编写了一套通用的模型,就象印制某种图案的模器那样,只需要往里面填入需要的内容,就可以实现mapreduce大数据算法开发,极大地降低了大数据开发的门槛,也使得hadoop受到广大的大数据分析人员的欢迎,这也是hadoop能在全球范围内迅速扩展的原因之一。


一般来讲,编写mapreduce大数据分析算法都是在数据整理的过程中需要,而得出最终的大数据分析结果,一般使用常用的mahout大数据分析算法来解决就可以了,因此作为一个优秀的大数据分析师,应把学习的重点放在业务逻辑的关注上,其次就是对mahout大数据分析算法的掌握,最后才是基于mapreudce编程思想的大数据分析算法设计,这个是也人大经济论坛大数据分析课程培训的主要思路。


CDA数据研究院

大数据中心


                     


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据分析算法 大数据分析 数据分析 大数据 MapReduce 技术 价值

已有 4 人评分经验 论坛币 学术水平 热心指数 收起 理由
kongqingbao280 + 10 精彩帖子
zl89 + 60 精彩帖子
daazx + 20 + 10 精彩帖子
我的素质低 + 100 + 2 + 2 精彩帖子

总评分: 经验 + 190  论坛币 + 10  学术水平 + 2  热心指数 + 2   查看全部评分

本帖被以下文库推荐




CDA数据分析交流群 217748971
沙发
littlelianglian 发表于 2015-5-25 14:45:04 |只看作者 |坛友微信交流群
大数据分析的流程浅析之一:大数据采集过程分析:https://bbs.pinggu.org/thread-3701681-1-1.html
大数据分析的流程浅析之二:大数据整理过程分析:https://bbs.pinggu.org/thread-3711492-1-1.html
已有 1 人评分经验 收起 理由
kongqingbao280 + 10 精彩帖子

总评分: 经验 + 10   查看全部评分

使用道具

藤椅
may_jd 发表于 2015-5-25 16:18:20 |只看作者 |坛友微信交流群

使用道具

板凳
Crsky7 发表于 2015-5-25 17:21:21 |只看作者 |坛友微信交流群
作为一个优秀的大数据分析师,应把学习的重点放在业务逻辑的关注上,其次就是对mahout大数据分析算法的掌握,最后才是基于mapreudce编程思想的大数据分析算法设计
已有 3 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
kongqingbao280 + 10 精彩帖子
fantuanxiaot + 30 + 3 + 3 + 3 精彩帖子
daazx + 20 + 5 精彩帖子

总评分: 经验 + 60  论坛币 + 5  学术水平 + 3  热心指数 + 3  信用等级 + 3   查看全部评分

使用道具

报纸
currantzhong 发表于 2015-5-25 19:42:00 |只看作者 |坛友微信交流群
贊。

使用道具

地板
alfredgump 学生认证  发表于 2015-5-25 19:42:10 |只看作者 |坛友微信交流群

使用道具

7
czh_3104 发表于 2015-5-25 20:28:08 |只看作者 |坛友微信交流群
飘过。。。。。

使用道具

8
lzt341 发表于 2015-5-25 21:53:33 |只看作者 |坛友微信交流群
好             !

使用道具

9
2010517155lpq 学生认证  发表于 2015-5-25 23:17:41 |只看作者 |坛友微信交流群

使用道具

10
2010517155lpq 学生认证  发表于 2015-5-25 23:18:33 |只看作者 |坛友微信交流群
......

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-26 14:30