楼主: 我的素质低
3802 0

[Hadoop] 〖Mahout〗mahout in action(一) [推广有奖]

学术权威

83%

还不是VIP/贵宾

-

TA的文库  其他...

〖素质文库〗

结构方程模型

考研资料库

威望
8
论坛币
23388 个
通用积分
28302.3504
学术水平
2705 点
热心指数
2881 点
信用等级
2398 点
经验
223623 点
帖子
2977
精华
52
在线时间
2175 小时
注册时间
2012-11-24
最后登录
2024-1-13

一级伯乐勋章 初级学术勋章 初级热心勋章 初级信用勋章 中级热心勋章 中级学术勋章 中级信用勋章 高级学术勋章 高级热心勋章 高级信用勋章 特级学术勋章

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

这里译著mahout in action是比较全面的。





1 初识Mahout




      本章内容: 什么是mahout .初识推荐引擎,聚类,分类在现实生活 .建立mahout   你们可能已经从标题中猜出,这本书是关于一个特定的工具Mahout,在现实生活中使用。那么什么是mahout?


  

        Mahout是一个Apache的开源机器学习项目。该算法属于广阔的 “机器学习”,或“集体智慧的伞形结构。这就可以代表很多东西,但此时此刻,我们关心Mahout的主要部分是:协同过滤(CF)/推荐引擎(recommender),聚类(clustering)和分类(classification)。 它具有很强的扩展性。当被处理的非常巨大的数据量,对单个机器来说可能太巨大以至于无法完成时,Mahout旨在成为处理数据的机器学习工具。


      在它当前的体现中,这些可扩展性的实现是用Java语言写成的,有些部分是建立在Apache Hadoop分布式计算项目上。  它是一个Java library。它不提供一个用户接口,一个预先的jar包服务,或安装文件。它是一个开发者用于使用和改装的工具的框架。







mahout in action 6 分布式计算推荐器(Distributing Recommendation Computations)




        博客分类: Hadoop算法Mapreduce 本章包括:从维基百科统计分析大量的数据。编写在hadoop上使用的推荐器和分布式算法  。伪分布式存在非分布式的推荐器  我们越来越关注日益增长的数据,自从开始这本书:从10个选择,到100,000到1千万,和现在1.7千万。这里仍旧只有半成品在推荐领域。本章,我们将再次处理大量的数据,超过1.3亿的“偏好”在提交维基百科的文章到文章的连接选择。


       在这个数据集合,用户和项目都是条件约束,他们展示怎么推荐可以有效的实施针对较少的常见内容。   针对展示1.3亿“偏好”仍然是易于控制的大小,它是一个这样的刻度:换句话说我们过去看到的,对单机处理很麻烦的推荐器。我们将部署新的推荐算法,使用分布式计算着手处理基于MapReduce和hadoop






mahout in action 6.1从维基百科统计分析大量的数据  出版Web.net  维基百科



      (http://wikipedia.org)众所周知的在线百科全书,它的内容可以被用户编辑和维护。到2010年5月它的报导,仅仅用英语写 的文章超过了3.2M。估计Freebase Wikipedia Extraction项目

       (http://download.freebase.com/wex/)的大小,仅仅英语文章超过4.2GB。作为web站 点,维基百科的文章可以使用和被连接到另外的文章里面。有这么一篇文章,它里面有很多形同兴趣的文章连接。我们将认为这些文章为“users”,和文章的 引用作为“items”,文章的来源为“likes”   幸运的,我们不在需要下载freebase百科的目录摘要和列出所有的连接。研究员亨利.哈塞格洛芙已经提前出所以文章和出版信息,位   于  http://users.on.net/~henry/home/wikipedia.htm.这将有利于过滤出连接的附件资源,例如文章的讨论页,图 片,等等。这些数据集合也可以根据数字id描述出文章,取代标题。这些更有帮助,针对Mahout研究所有的users和items使用数字id。    在继续之前,下载和提取links-simple-sorted.zip






mahout in action 1.1 Mahout是否适合我




算法luceneHadoop搜索引擎项目管理


       大家可能想知道,这个项目,这本身是否适合我?  如果你想找一本机器学习的教科书,那就不适合你。本书不是用来完全解释理论,算法的各种来历和技术展现。熟悉这些机器学习的方法和相关的概念,如matrix and vector math,这些知识在读这本书时都是很有用的。  如果你正在开发现代化的智能应用程序,这本书适合你。


        随着解决方法的完整示例,这本书提供了一个实用的而非理论的方式来处理这些技术。它开发了一些关于mahout如何部署来解决问题的方案,这些方案是由示范过程中有经验的学员收集的。   如果你是一个关于人工智能,机器学习以及相关领域的研究人员,适合你。可能你最大的障碍就是把新的算法应用到实践中。Mahout为检测和部署新的大型的算法提供了一个丰富的框架。这本书在复杂的分布式计算框架上运行机器学习系统是一个有效的引入人。   如果你是一个产品团队或系统启动项的领导,将会利用机器学习创造一个有竞争性的优势,那么这本书对你也是有用的。通过现实生活中的例子,将会产生关于这些技术可能被部署的许多方式的观点。它也会帮助你的碎片技术团队直接形成一个低成本的实施,这可以处理大量的以前数据,这些数据只对拥有大型技术资 源的组织是很现实的。



      最后,你可能想知道怎样来说mahout,它应该与“trout”谐音。它应该是一个关于大象管理员的印的词语,并试图解释这一词语,这里有一个 小的历史。2008年,mahout作为apache Lucene项目的子项目出现,它提供了同名的著名的开源搜索引擎。Lucene为关于搜索,文本开采和信息检索技术提供了高级实施。从计算机科学的整体来说,这些概念对机器学习技术,如聚类,在一定程度上,如分类,是邻近的。所以,对这些机器学习领域投入更多的lucene committers,它的一些工作是把自己甩进自己的子项目里。不久以后,Mahout吸收了“Taste”开源协同过滤(CF)项目。 2010年4月,mahout就其本身已经变成了一个高水平的Apache项目。



      Mahout的很多工作通常不仅以一种高效的可扩展的方式实现了这些算法,而且转换一些算法至Hadoop的规模上运行。Hadoop的吉祥物是一只大象,它最后解释了这个项目名称。    Mahout和它的相关项目   Mahout不断提供一些技术和算法,其中许多技术和算法仍处在开发或试验阶段。在这个项目的早期阶段,三个核心主题是明显的:协同过滤/推荐引擎,聚类和分类。如果你正在读这本书,而你已经意识到这三类技术的有趣的潜能。如果你 还没能了解,请继续读下去。




译】mahout in action 1.2 推荐引擎Recommender Engines





       影视Facebook  推荐引擎是当今使用中最直接的,可辨别的机器学习技术。我们已经都看到了,试图推荐基于我们过去行为的书本、影视或文章的服务或网站。它们努力推断出爱好和首选项,以及辨认有兴趣的未知项目:  亚马逊网站在部署推荐上可能是最著名的商业网站。基于购买和用户浏览,亚马逊推荐可能有兴趣的书本或其他项目。看图 1.2.  。Netflix同样推荐可能有兴趣的DVD,而且它之所以著名,是因为提供1000000美元的奖励给那些能够提高他们推荐质量的研究人员。像Líbímseti(稍后讨论)这样的Dating网站甚至可以把人推荐给人。   。



像Facebook这样的社交网络网站,把可变类型运用到推荐技术上来辨认人,这些人很可能是认识但没有联系的朋友。    图 1.2 一个来自于亚马逊的推荐。   基于过去的购买历史和用户的其他行为对比,亚马逊推荐系统认为用户对这个会有兴趣。它甚至可以告诉用户他或她已经购买或者喜欢的事物的类似事物,这在某种程度上由这个推荐引擎完成的。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:mahout Action Out CTI TIO mahout action

已有 2 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
niuniuyiwan + 100 + 100 + 5 + 5 + 5 精彩帖子
daazx + 20 + 3 + 3 精彩帖子

总评分: 经验 + 120  论坛币 + 100  学术水平 + 8  热心指数 + 8  信用等级 + 5   查看全部评分

本帖被以下文库推荐

心晴的时候,雨也是晴;心雨的时候,晴也是雨!
扣扣:407117636,欢迎一块儿吐槽!!
您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-25 09:20