楼主: 柠檬阿水
178 0

[学科前沿] 【Robot Learning】基础:从不同角度对机器学习分类 [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

学前班

40%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
20 点
帖子
1
精华
0
在线时间
0 小时
注册时间
2018-9-13
最后登录
2018-9-13

楼主
柠檬阿水 发表于 2025-11-28 11:59:48 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

1. 学习方式与模型分类概述

机器学习可以从多个维度进行划分,常见的分类方式包括:按学习范式、模型架构、生成机制以及任务目标等。这些分类帮助我们更清晰地理解不同算法的适用场景与核心原理。

2. 按学习范式划分(核心分类方式)

2.1 监督学习 —— “有导师指导的学习”
核心思想: 提供带有明确标签的训练数据,让模型学习从输入到输出的映射关系。
类比理解: 就像教师向学生展示大量苹果和橘子的图片,并逐一告知名称,使学生逐步掌握识别能力。

典型模型包括:

  • 线性回归: 用于预测连续数值型结果,例如根据房屋面积估算价格。
  • 逻辑回归: 解决二分类问题,如基于考试成绩判断是否及格。
  • 决策树: 通过一系列“如果…那么…”规则进行判断,结构类似流程图。
  • 支持向量机(SVM): 寻找最优分界线(最大间隔超平面),将不同类别数据有效分离。
  • 随机森林: 集成多个决策树,通过投票机制提升准确性,体现“集体智慧”。
  • 神经网络 模拟人脑神经元连接方式,适用于处理高度复杂的非线性问题。

2.2 无监督学习 —— “自主发现规律”
核心思想: 输入数据不包含标签信息,模型需自行探索其中潜在结构或分布模式。
类比理解: 给出一堆未标注的水果,仅凭颜色、形状等特征将其归类为若干组。

常用模型如下:

  • K-均值聚类: 将相似样本自动划分至同一簇中,实现数据分组。
  • 主成分分析(PCA): 对高维数据降维,提取关键特征,便于可视化或后续建模。
  • 自编码器: 先压缩再还原数据,在此过程中学习高效的数据表示形式。

2.3 强化学习 —— “在试错中成长”
核心思想: 智能体在环境中采取行动,依据获得的奖励或惩罚反馈调整策略,以最大化长期收益。
类比理解: 训练小狗完成动作时,正确行为给予零食奖励,错误则无反馈,逐渐形成正向行为习惯。

代表性方法:

  • Q-Learning: 构建状态-动作价值表,指导智能体选择最优行为。
  • 深度Q网络(DQN): 使用神经网络替代传统Q表,可处理图像等复杂输入状态。
  • 策略梯度方法: 直接优化策略函数,决定在特定状态下应采取的动作。

2.4 半监督学习 —— “少量指导 + 大量自学”
核心思想: 利用少量带标签数据与大量无标签数据联合训练,提升模型泛化能力。
类比理解: 教师先教会几种常见水果的识别,随后让学生利用已有知识对新水果进行分类。

3. 按模型架构类型划分

3.1 线性模型
试图使用直线(或多维空间中的超平面)拟合数据关系。具有良好的可解释性,但对非线性问题拟合能力较弱。

3.2 树模型
基于层级判断逻辑构建模型,决策过程直观透明。
代表模型: 决策树、随机森林、XGBoost(广泛应用于各类数据竞赛)。

3.3 神经网络
由大量相互连接的神经元组成,构成深度学习的核心基础,具备强大的表达能力。

主要变体包括:

  • 卷积神经网络(CNN): 特别适合图像处理,能够捕捉局部空间结构与层次特征。
  • 循环神经网络(RNN): 擅长处理序列数据(如文本、语音、时间序列),具备记忆能力。
  • Transformer: 当前主流架构,依赖“自注意力机制”实现并行化处理,在自然语言任务中表现卓越,是GPT、BERT等大模型的基础。

4. 按生成模式划分

该分类聚焦于模型如何产生输出,尤其关注生成式模型的工作机制。

4.1 判别式模型
关注问题: “如何区分两个类别?”
学习内容: 直接建模类别之间的边界函数。
类比理解: 专注于找出猫与狗的区别点,以便准确分类。
典型代表: 逻辑回归、支持向量机、大多数神经网络分类器。

4.2 生成式模型
关注问题: “某一类数据本身是什么样子?”
学习内容: 建模每一类数据的概率分布,掌握其内在结构后可生成新样本。
类比理解: 先学会猫和狗各自的绘画方式,之后即可创作出新的猫狗图像。

代表模型包括:

  • 生成对抗网络(GANs): 包含生成器与判别器,二者博弈中不断提升生成质量。
  • 变分自编码器(VAE): 将数据编码为低维潜在表示,再解码还原,实现数据生成。
  • 扩散模型: 当前最先进的图像生成技术之一,通过逐步去噪过程重建原始图像。
  • 自回归模型: 依据已生成的部分逐个预测下一个元素,常用于序列生成。

关于自回归模型的深入解析

本质属性:
自回归模型属于生成式模型的一种,其核心策略是“基于已有内容预测下一步”。这种机制天然适用于文本、音频等序列任务。

在模型体系中的位置:

  • 它是一种生成策略,强调顺序生成过程。
  • 典型实例: 循环神经网络(RNN)具有天然的自回归特性;Transformer的解码器部分(如GPT系列)则是当前最成功的应用。

GPT在生成文本时即采用典型的自回归方式:

“我” -> “爱” -> “你”

优缺点分析:

优点:

  • 生成结果连贯性强,尤其适合需要上下文依赖的任务。

缺点:

  • 生成速度慢,必须串行执行,无法完全并行化。
  • 可能出现错误累积现象,一旦早期预测出错,后续内容可能持续偏离。

对比:非自回归模型
为克服上述缺陷,部分模型尝试一次性或并行生成整个序列。

例如: 某些图像生成模型接收一个随机噪声向量,直接输出完整图像。

优势: 生成速度快。
劣势: 在整体一致性与细节质量上有时不如自回归模型稳定。

一步错,便可能导致步步错。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Learning earning robot Learn 机器学习

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-9 13:58