1211 0

深度学习技术开发与应用 [推广有奖]

  • 0关注
  • 0粉丝

小学生

21%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
60 点
帖子
3
精华
0
在线时间
2 小时
注册时间
2022-4-16
最后登录
2024-3-2

楼主
RGZN海洋之心 发表于 2022-4-21 15:03:52 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

时间安排

  纲

具体内容

实操案例

三天

关键点

1.强化学习的发展历程

2.马尔可夫决策过程

3.动态规划

4.无模型预测学习

5.无模型控制学习

6.价值函数逼近

7.策略梯度方法

8.深度强化学习-DQN算法系列

9.深度策略梯度-DDPG,PPO等

第一天

9:00-12:00

14:00-17:00

一、强化学习概述

1.强化学习介绍       2.强化学习与其它机器学习的不同

3.强化学习发展历史   4.强化学习典型应用

5.强化学习基本元素   6.强化学习算法分类

二、马尔科夫决策过程

1.马尔可夫性         2.马尔可夫决策过程

3.策略与价值         4.最优化原理

5.MDPs扩展

三、动态规划

1.动态规划       2.价值迭代

3.策略迭代       4.迭代策略评估

5.广义策略迭代   6.维数灾

1.python环境下简单扫地机器人环境

2.价值迭代python实现

3.策略迭代python实现

4.迭代策略评估python实现

四、无模型预测学习

1.蒙特卡洛方法   2.时间差分学习

3.n-步回报       4.TD(lambda)

5.资格迹

1.蒙特卡洛方法python实现

2.时间差分方法python实现

第二天

9:00-12:00

14:00-17:00

、无模型控制学习

1.蒙特卡洛控制   2.Sarsa

3.重要性采样     4.Q-学习

4.Double Q学习   5.探索与利用

1. Sarsa方法python实现

2. Q学习方法python实现

3. Sarsa(lambda)方法python实现

六、价值函数逼近

1.函数逼近器     2.线性函数逼近

3.常见的特征表示方法

4.价值迭代+离散化方法

5.Fitted Q Iteration

6.策略迭代+最小二乘

7.预测学习+随机梯度下降法

8.控制学习+随机梯度下降法

1. 离散化Q迭代方法python实现

2. LSPI方法python实现

、策略梯度方法

1.基于策略的强化学习

2.有限差分策略梯度

3.解析法策略梯度

4.REINFORCE算法

5.Actor-Critic

6.策略梯度引入基准

7.自然梯度

8.确定型Actor-Critic

1. 策略迭代方法python实现

2. actor-critic方法python实现

第三天

9:00-12:00

14:00-17:00

、深度强化学习

1.Deep Q learning(DQN)

2.Double DQN

3.Dueling DQN

4.Prioritized Experience Replay

5.A3C/A2C

6.DDPG

7.PPO

8.SAC

1.深度强化学习训练场-OpenAI Gym 安装与使用

2.Pytorch安装与使用

3.自动驾驶赛车任务

4.月球飞船降落任务

实操解析与训练一

实验:倒立摆和冰壶控制实践

1.环境编写    2.算法设计    3.实验结果

高频问题:

如何将一个控制问题设计成马尔可夫决策问题并使用强化学习算法进行训练

关键点:

1.基于模型的离线强化学习方法    2.基于数据的在线强化学习方法

实操解析与训练二

实验:OpenAI Gym实践

1.Gym安装   2.Gym使用   3.强化学习

高频问题:

1.如何基于Gym实现强化学习训练与测试

关键点:

1.掌握马尔可夫决策过程       2.低维输入的强化学习方法

实操解析与训练三

实验:月球飞船降落任务

1.DQN/Double DQN/Dueling DQN        2.PER

高频问题

1.深度强化学习网络训练稳定性   2.探索与利用

关键点:

1.经验回放技术的实现     2.目标网络更新

实操解析与训练四

实验:自动驾驶赛车任务

1.连续控制任务   2.策略梯度方法DDPG/PPO

高频问题:

1.适用于高维输入的连续控制任务的深度强化学习方法

关键点:

1.掌握DDPGPPO具体编程实现   

2.根据实际需求,选用合理的深度强化学习方法


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:深度学习

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-4 23:57