楼主: 时光永痕
1979 0

[数据挖掘新闻] 机器学习思维导图 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)四级

91%

威望
0
论坛币
26 个
通用积分
49.8622
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
317 小时
注册时间
2020-7-21
最后登录
2024-5-13

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
机器学习(ML)是当今的热门话题。每个人都在谈论新的编程范式,模型在非常不同的领域实现,越来越多的初创公司主要依赖于 ML。


同时,机器学习是一个具有多个不同维度的复杂领域。有时,即使是经验丰富的技术专家也很难想象整个 ML 世界以及他们在这个世界中的位置。很多人只是对 ML 感到好奇,并没有深入沉浸在这个主题中。对于那些人来说,了解机器学习的结构也很重要。

概念的可视化是确保正确理解和记忆特定领域的最佳方法之一。这正是思维导图可以帮助做的事情。我们准备了机器学习思维导图,希望对您有用。请注意,机器学习是数据科学的一个子领域,是更广泛的领域。对于那些对数据科学感兴趣的人,我们可以推荐另一个我们的材料——经理人思维导图数据科学。

在构建我们的 ML 思维导图时,我们使用了以下方法。我们从 3 个不同的角度看待 ML:任务类型、应用程序和方法。

3837751335
任务类型分支
机器学习中有几种类型的任务。最常见的是有监督和无监督学习。其他类型包括半监督学习和强化学习。

监督学习是一种任务,其中您的数据由输入特征表示并输出正确答案。您想教您的 ML 模型根据新(未见过的)数据的输入特征预测正确的输出答案。监督学习任务的示例是分类(预测类别/类别)和回归(预测值/数量)。此外,图像分割是监督学习的一个例子,因为在训练期间模型应该查看正确分割的图像。您应该注意,一些不是分类或回归的生动示例的任务实际上属于这些类型之一。例如,对象检测可以被视为一项分类任务,因为我们查看图像(或图像的单独部分)并尝试回答问题:“是否存在对象?”。这个问题是一个二元分类。

无监督学习是一种只有输入数据而没有任何正确答案(输出)的情况​​。聚类、异常检测或降维是无监督学习的典型例子。想想集群:我们有数据,我们需要检测其中的集群。我们事先没有标记数据,所以我们不知道哪个数据点属于哪个集群。ML 模型应该学习如何在没有任何先验知识的情况下检测集群。这意味着无监督学习。

半监督学习结合了监督学习和无监督学习的特征。当你创建一个推荐系统时,你通常有一部分标记数据和一部分未标记数据。自然语言生成模型使用句子的前面上下文来生成下一个单词。但是他们的预测具有概率性质,这使我们有理由将它们纳入半监督学习类型。图像生成是一项基于生成对抗网络的任务,生成对抗网络是无监督学习算法,使用监督损失作为训练的一部分。

强化学习是一种特殊类型的任务,您的模型应该使用奖励(来自环境的反馈)来学习如何自己做正确的事情。例如,您可以设置玩游戏的环境。如果模型表现不佳,将不会获得任何奖励积分。但该模型的目标是最大化奖励。因此,该模型将在下一轮游戏中改变其行为,如果该行为将产生比上一轮更多的奖励,则该模型将切换到该模型。在下一轮中,模型将尝试更改其他内容以进一步增加其增益,依此类推。强化学习是机器学习的一个有趣但复杂的子领域。

接近分支
现在让我们探索思维导图的绿色分支——方法。在这个分支中,我们包含了用于解决不同任务的方法。我们将所有方法分为基于单模型和基于多模型的方法。单一模型是只使用一个模型的方法。它们可以分为统计模型、传统机器学习模型和神经网络。

统计方法是解决类似于机器学习的任务的首批方法之一。它们包括降维方法、回归预测方法、数据分析方法等。例如,主成分分析(PCA)是一种众所周知的降维方法。分解矩阵广泛用于构建推荐系统。潜在狄利克雷分配 (LDA) 是一种用于主题建模的算法。移动平均线既可用于分析先前的时间序列数据,也可用于对未来进行预测。

传统的机器学习方法可能是大多数初学者在开始学习 ML 时想到的那些算法。许多方法可用于分类和回归(例如,支持向量机 (SVM)、决策树、k 近邻 (KNN))。但是,其中一些更适合解决特定类型的任务。最终,有些模型只能用于特定任务。例如,K-means 是一种专门解决聚类任务的算法,而逻辑回归是一种纯分类算法(不要被它的名字混淆)。

神经网络是 ML 炒作最集中的领域。同理,神经网络不过是具有特定结构的数学算法。有简单的神经网络(有时它们被称为感知器)和深度神经网络。如今,深度神经网络处于 ML 进步的边缘。计算机视觉和自然语言处理中的所有这些很酷的事情主要是在深度神经网络的帮助下完成的。最流行的深度神经网络类型是卷积神经网络、循环神经网络和生成对抗网络。

多模型方法需要使用多个单一模型来解决任务。堆叠是当我们使用几个不同的 ML 模型(例如,来自传统模型的类别),然后使用它们的答案(输出)作为另一个模型的输入。模型可以有好几层。这样的策略往往会产生很好的效果。但是,整个系统变得复杂,很难将其部署到生产环境中。

Bagging意味着采用多个模型并对它们的预测进行平均。例如,随机森林是决策树的集合。这允许在将偏差保持在稳定水平的同时减少方差。您可以在我们的文章中阅读有关偏差-方差权衡的更多信息。

Boosting是一种集成方法,它也使用许多基本模型来改善整体结果。与 bagging 的区别在于,boosting 是算法的定向组合。这意味着每个下一个模型的构建都以减少先前创建的基础模型组合的错误的方式构建。梯度提升最流行的实现是 XGBoost 和 lightGBM。

应用分支
现在我们将转向应用程序——我们思维导图的最后一个全球分支。我们正在谈论使用 ML 的领域。这与机器学习可能有用的行业无关。这与 ML 应用程序的类型有关。但是,如果您对 ML 用例感兴趣,可以查看我们的“Y 中的 Top X 数据科学用例”博客文章系列。

通常,ML 应用的类型如下:降维、自然语言处理 (NLP)、计算机视觉 (CV)、异常检测、时间序列、分析和推荐系统。

降维允许减少数据,同时保留最相关的信息。它用于图像和音频压缩,以及机器学习模型创建管道中的特征工程。

自然语言处理(NLP) 是一个与其他机器学习应用程序越来越分离的广泛领域。许多专家甚至将 NLP 视为一门独立学科。ML 在 NLP 中的应用如下:主题建模、文本分类、情感分析、机器翻译、自然语言生成、语音识别、文本到语音、文本分析、摘要、实体识别、关键字提取。

与 NLP 一样,计算机视觉(CV) 正在成为一个巨大的独立学科。最著名的 CV 应用是图像分类、图像分割和对象检测。

异常检测是一种应用程序,其目的是识别数据中意外的、非典型的东西。异常检测分为新奇检测、异常值检测和欺诈检测。此外,它可能不是新奇或异常值,而是数据中的某种奇怪模式。我们不会在思维导图中包含这种情况,但如果我们这样做了,我们将其称为简单的“异常检测”。

时间序列是我们处理基于时间的数据的区域。例如,证券交易所价格、天气数据、物联网传感器数据等。我们可以分析时间序列或预测可能的未来值。

分析是探索数据性质和模式的经典领域。有预测分析(预测未来或未见过的数据会发生什么)、当前状态分析(在不建立预测模型的情况下,我们可以从当前数据中获得什么见解)和优化问题(例如,探索如何从A点到B点不同资源消耗最少)。

最后,推荐系统是您拥有一组用户和一些内容的应用程序,您希望创建一个能够为用户推荐相关内容的系统。此类系统使用特殊的 ML 方法(如分解机器)来利用有关用户和内容项的已知数据。

结论
我们开发的思维导图是试图为那些没有深入参与该领域的人解释机器学习的结构。我们证明了机器学习可以从三个不同的方面来考虑:任务类型、方法(方法)和应用程序类型。很明显,我们的思维导图无法包含有关机器学习等复杂领域的所有信息。有一些类型的任务、应用程序,尤其是算法不包括在该方案中。此外,我们认为有足够的空间来讨论一些观点。


      相关帖子DA内容精选

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 思维导图 Boosting bagging k-means

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-6-17 14:58