【机器学习】分布式机器学习-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 软件培训>>

数据分析培训

>>

【机器学习】分布式机器学习

【机器学习】分布式机器学习

发布:Studio-R | 分类:数据分析培训

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

分布式机器学习  分布式机器学习是随着“大数据”概念兴起的。在有大数据之前,有很多研究工作为了让机器学习算法更快,而利多多个处理器。这类工作通常称为“并行计算”或者“并行机器学习”,其核心目标是把计算 ...
扫码加入数据分析学习群


分布式机器学习

  分布式机器学习是随着“大数据”概念兴起的。在有大数据之前,有很多研究工作为了让机器学习算法更快,而利多多个处理器。这类工作通常称为“并行计算”或者“并行机器学习”,其核心目标是把计算任务拆解成多个小的任务,分配到多个处理器上做计算。
http://cdas.pinggu.org/images/356.png
  分布式计算或者分布式机器学习除了要把计算任务分布到多个处理器上,更重要的是把数据(包括训练数据以及中间结果)分布开来。因为在大数据时代,一台机器的硬盘往往装不下全部数据,或者即使装下了,也会受限于机器的I/O通道的带宽,以至于访问速度很慢。为了更大的存储容量、吞吐量以及容错能力,我们都希望把数据分布在多台计算机上。
  那么什么样的数据大到一台机器甚至几百台机器的硬盘都装不下呢?要知道,现在很多服务器的硬盘空间都是数TB的了!其实这样的大数据有很多。比如搜索引擎要爬下很多很多的网页,对其内容做分析并建立索引。有多少网页呢?这个数字很难估计,因为这是随时间变化的。
http://cdas.pinggu.org/images/365.png
  在Web 2.0出现之前,全球网页数量的增长相对稳定,因为网页都是专业人员编辑的。而由于各种Web 2.0工具帮助用户建立自己的网页,比如博客、甚至微博,所以网页数量呈指数速度递增。
  另一种典型的大数据是电商网站上的用户行为数据。比如在亚马逊或者淘宝上,每天都很多用户看到了很多推荐的商品,并且点击了其中一些。这些用户点击推荐商品的行为会被亚马逊和淘宝的服务器记录下来,作为分布式机器学习系统的输入。输出是一个数学模型,可以预测一个用户喜欢看到哪些商品,从而在下一次展示推荐商品的时候,多展示那些用户喜欢的。
  今天,大家可以通过互联网使用Google的语音识别系统。我们会发现,不管使用者口音如何,Google的语音识别系统几乎都能准确识别,以至于几乎不再需要“适应主人的口音”。而且Google的系统支持的语言种类也更多。这其中的奥妙就在于“大数据”。
  在Google发布语音识别引擎之前,先有语音搜索服务。在语音搜索服务之前,有一个打电话查询的服务。实际上,正式这个电话服务收集了很多用户的语音输入。这部分数据经过人工标注,称为了训练语言模型和声学模型的第一批数据。随后发布的语音搜索收集了世界各地更多互联网用户的声音,加上半自动标注系统的引入,训练数据大大丰富了。训练数据越多,能覆盖的口音和语种越多,机器学习得到的模型的识别准确率也就越高。
http://cdas.pinggu.org/images/366.png
  所以如果我们能设计分布式机器学习系统,能从大数据中归纳规律,我们实际上就在归纳整个人类的知识库。这个听起来很神奇,实际上在上面的例子里,Google已经做到了。在这一系列的最后一节里,我们会介绍我们开发的一个语义学习系统,它从上千亿条文本数据中,归纳汉语中上百万的“语义”。随后,只要用户输入任何一段文本,这个系统可以利用训练好的模型在一毫秒之内,理解文本中表达的“语义”。这个理解过程确保消除文本中的歧义,从而让搜索引擎、广告系统、推荐系统等应用更好地理解用户需求。
  简言之,互联网使得人类第一次有机会收集全人类的行为数据。从而为机器学习这一持续了数十年的研究方向提供了全新的机会——分布式机器学习——从互联网数据中归纳这个人类的知识,从而让机器比任何一个个人都要“聪明”。


时势造英雄 机遇与挑战并存的大数据时代
http://cdas.pinggu.org/images/023.jpg

  百度是国内最早进行大数据技术研究的公司之一。百度研究院专门成立了大数据实验室BDL,由世界机器学习顶级学者张潼教授领衔。沈志勇表示,自己所在的BDL部门正为百度大数据引擎,尤其是其中的百度大脑部分做一些大数据相关的工作。“百度天生就是一个大数据公司,大数据技术之于百度就像空气,如果没有大数据技术,百度根本难以运转。现在业界很多公司都需要大数据,可是自己又做不了,所以我们想把大数据技术拿出来推动整个行业的发展。”
  大数据这个词目前非常火,火的甚至有点意外。由于大数据如此受关注,所以每个人看它的角度都会不一样。决定这个角度的往往是自己的知识背景。目前业内很喜欢把大数据和云计算联系到一起,不过沈志勇和他的团队主要关注的是在大数据上的机器学习。
  沈志勇认为,当下是一个机遇与挑战并存的时代,大数据使整个社会都有了数据意识。现在大家都知道怎么样采集和记录,把数据都写下来或通过各种各样的方式记下来。这是好事,对机器学习来讲有了更加广阔的数据源,对于算法来讲也可以有更多的数据。可是,数据越来越多就会引发数据处理的问题,多元数据往往会带来很多问题,这就是挑战。
  “幸运的是在整个过程中,别的技术也在发展。随着我们计算能力的拓展,模型学习理论的发展,我们可以处理或者学习很多复杂的模型。这说明很多条件都已经成熟了,形成了一个时势造英雄的态势。”沈志勇表示。
  “如果是一个有经验的人,比如说一个语文名师怎么做这件事情,首先需要接触过大量的优秀的作文范文。其次,要预测今年的作文题目,他要把握一下时代的脉搏。而我们要做的就是模拟这个思考过程,即在对高中生作文范文集这个语料库上做一些归纳性建模,比如说,主题模型。我们把把学到的模型与时事趋势相结合,就能预测出大概方向。”沈志勇说。
  最后沈志勇老师对此次分享做了总结,他认为预测只是百度研究院大数据实验室的入手点,他们最终会利用大数据作出一个在线智能系统,帮助模拟人的分析决策过程。


「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

本文论坛网址:https://bbs.pinggu.org/thread-5437878-1-1.html

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。