楼主: 2928195675
538 0

[其他] 你必须要了解的大数据潮流下的机器学习及应用场景 [推广有奖]

  • 0关注
  • 0粉丝

大专生

26%

还不是VIP/贵宾

-

威望
0
论坛币
11 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
562 点
帖子
25
精华
0
在线时间
13 小时
注册时间
2018-2-11
最后登录
2019-8-27

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

  机器学习是一门人工智能的科学,能通过经验自动改进的计算机算法的研究。

  机器学习是一个多学科交叉的领域,会涉及到计算机、信息学、数学、统计学、神经科学等。

  机器学习是大数据的核心技术,本质都是基于经验的算法处理。机器学习强调三个关键词:算法、经验、性能,其处理过程如下图所示。


  在数据的基础上,通过算法构建出模型并对模型进行评估。评估的性能如果达到要求,就用该模型来测试其他的数据;如果达不到要求,就要调整算法来重新建立模型,再次进行评估。如此循环往复,最终获得满意的经验来处理其他的数据。

  机器学习技术和方法已经被成功应用到多个领域,比如今日头条的个性推荐系统,蚂蚁金服的金融反欺诈,讯飞的语音识别,自然语言处理和google的机器翻译,模式识别,智能控制、垃圾邮件等。

  机器学习的分类

  监督学习

  监督是从给定的训练数据集中学习一个模型,再用此模型预测,再将预测结果与实际结果进行比较,不断调整预测模型,直到达到一个预期的准确率。

  常见算法包括回归分析和统计分类。监督学习常用作训练神经网络和决策树。他们高度依赖事先确定的分类系统。如垃圾邮件、新闻资讯内容分类。

  非监督学习

  非监督学习的训练集没有人为标注的结果,学习模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。

  


  这类学习型的目标不是让效用函数最大化,而是找到训练数据中的近似点。聚类常常能发现那些与假设匹配的相当好的直观分类,如基于人口统计的聚合个体可能会在一个群体中形成一个富有的聚合和穷的聚合。

  半监督学习

  介于监督学习与无监督学习间,产要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。学习算法试图对未标识数据进行建模,再对标识的数据进行预测,如图论推理算法或拉普拉斯支持向量机等。

  机器学习常用算法

  回归算法

  最小二乘法、逻辑回归、逐步式回归、多元自适诮回归样条以及要地散点平滑估计。

  


  基于实例的算法

  常被称为“赢家通吃”学习。常用来对策问题建立模型,这样的模型常常先选取一批样本数据,然后根据某些近似把新数据与样本数据进行比较。通过这种方式来寻找最佳的匹配。

  决策树学习

  根据数据的属性采用树状结构建立决策模型,常用来解决分类和回归问题。

  


  贝叶斯学习

  主要用来解决分类和回归问题。朴素贝叶斯算法。

  


  聚类、分类算法

  


  聚类和分类是机器学习中两个常用的算法,聚类将数据分开为不同的集合,分类对新数据进行类别预测,下面将就两类算法进行介绍。

  (1)什么是聚类

  聚类(Clustering)指将数据对象分组成为多个类或者簇(Cluster),它的目标是:在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。

  其实,聚类在人们日常生活中是一种常见行为,即所谓的“物以类聚,人以群分”,其核心思想在于分组,人们不断地改进聚类模式来学习如何区分各个事物和人。

  (2)什么是分类

  数据仓库、数据库或者其他信息库中有许多可以为商业、科研等活动的决策提供所需要的知识。分类与预测即是其中的两种数据分析形式,可以用来抽取能够描述重要数据集合或预测未来数据趋势。

  分类方法(Classification)用于预测数据对象的离散类别(Categorical Label);预测方法(Prediction)用于预测数据对象的连续取值。

  分类流程:新样本→特征选取→分类→评价

  训练流程:训练集→特征选取→训练→分类器

  最初,机器学习的分类应用大多都是在这些方法及基于内存基础上所构造的算法。目前,数据挖掘方法都要求具有基于外存以处理大规模数据集合能力,同时具有可扩展能力。

  机器学习库Spark MLLib

  MLlib是Spark的机器学习(Machine Learning)库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。机器学习需要多次迭代,如果使用hadoop计算框架,则每次计算都要进行磁盘读写任务,会导致非常大的I/O和CPU消耗,而Spark是基于内存的计算具有天生的优势。而且其RDD可与Spark SQL、Spark Streaming、GraphX等其他子框架与库无缝地共享数据和操作,如MLlib可以直接使用SparkSQL提供的数据,或可以直接和GraphX图计算进行join操作。

  MLlib在 spark 生态系统中的位置

  


  Spark MLlib 架构


  从架构图可以看出MLlib主要包含三个部分:

  底层基础:包括Spark的运行库、矩阵库和向量库;

  算法库:包含广义线性模型、推荐系统、聚类、决策树和评估的算法;

  实用程序:包括测试数据的生成、外部数据的读入等功能。

  下图是MLlib算法库的核心内容。

  


  MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。

  具体来说,其主要包括以下几方面的内容:

  1. 算法工具:常用的学习算法,如分类、回归、聚类和协同过滤;

  2. 特征化工具:特征提取、转化、降维,和选择工具;

  3. 管道(Pipeline):用于构建、评估和调整机器学习管道的工具;

  4. 持久性:保存和加载算法,模型和管道;

  5. 实用工具:线性代数,统计,数据处理等工具。

  Spark将机器学习算法分成了两个模块:

  训练模块:通过训练样本输出模型参数;

  预测模块:利用模型参数初始化,预测测试样本,输出预测值。

  MLLib中经典算法解析

  分类

  分类是一种重要的机器学习和数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型(也常常称作分类器),该模型能把未知类别的样本映射到给定类别中的一种技术。

  分类的具体规则可描述如下:

  给定一组训练数据的集合T(Training set),T的每一条记录包含若干条属性(Features)组成一个特征向量,用矢量 x=(x1,x2,..,xn) 表示。 xi 可以有不同的值域,当一属性的值域为连续域时,该属性为连续属性(Numerical Attribute),否则为离散属性(Discrete Attribute)。用 C=c1,c2,..ck 表示类别属性,即数据集有k个不同的类别。那么,T就隐含了一个从矢量X到类别属性C的映射函数: f(X)?C 。分类的目的就是分析输入数据,通过在训练集中的数据表现出来的特性,为每一个类找到一种准确的描述或者模型,采用该种方法(模型)将隐含函数表示出来。

  构造分类模型的过程一般分为训练和测试两个阶段。在构造模型之前,将数据集随机地分为训练数据集和测试数据集。先使用训练数据集来构造分类模型,然后使用测试数据集来评估模型的分类准确率。如果认为模型的准确率可以接受,就可以用该模型对其它数据元组进分类。一般来说,测试阶段的代价远低于训练阶段。

  MLlib分类算法分类算法基于不同的思想,算法也不尽相同,例如支持向量机SVM、决策树算法、贝叶斯算法、KNN算法等。Spark.mllib包支持各种分类方法,主要包含 二分类, 多分类和 回归分析。下表列出了每种类型的问题支持的算法。

  


  每个算法具体的内容由于内容过多,因此不在此详细介绍。

  分类算法使用场景

  1、市民出行选乘公交预测

  基于海量公交数据记录,希望挖掘市民在公共交通中的行为模式。以市民出行公交线路选乘预测为方向,期望通过分析广东省部分公交线路的历史公交卡交易数据,挖掘固定人群在公共交通中的行为模式,分析推测乘客的出行习惯和偏好,从而建立模型预测人们在未来一周内将会搭乘哪些公交线路,为广大乘客提供信息对称、安全舒适的出行环境,用数据引领未来城市智慧出行。

  2、基于运营商数据的个人征信评估

  运营商作为网络服务供应商,积累了大量的用户基本信息及行为特征数据,如终端数据、套餐消费数据、通信数据等等。实名制政策保证了运营商用户数据能与用户真实身份匹配,并真实客观的反映用户行为。广泛覆盖的网络基础设施提供了积累大量实时数据的条件,这些用户数据实时反馈着用户的各个维度的信息及特征。

  在我国,个人征信评估主要通过引用央行个人征信报告,但对于很多用户没有建立个人信用记录的用户,金融机构想要了解他们的信用记录成本又较高,传统征信评估手段难以满足目前多种多样的新兴需求。金融业务不同于其他大数据业务,对数据的真实性、可信度和时效性要求较高,而这正是运营商数据的价值所在。

  期望利用运营商用户数据,提供完善的个人征信评估。

  3、商品图片分类

  京东含有数以百万计的商品图片,“拍照购”“找同款”等应用必须对用户提供的商品图片进行分类。同时,提取商品图像特征,可以提供给推荐、广告等系统,提高推荐/广告的效果。

  希望通过对图像数据进行学习,以达到对图像进行分类划分的目的。

  4、 广告点击行为预测

  用户在上网浏览过程中,可能产生广告曝光或点击行为。对广告点击进行预测,可以指导广告主进行定向广告投放和优化,使广告投入产生最大回报。

  希 望基于100万名随机用户在六个月的时间范围内广告曝光和点击日志,包括广告监测点数据,预测每个用户在8天内是否会在各监测点上发生点击行为。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-20 00:40