楼主: peylinn8
723 2

[学习笔记] 【学习笔记】2020/01/28 《百面机器学习-算法工程师带你去面试》读书笔记 《N ... [推广有奖]

  • 0关注
  • 6粉丝

副教授

4%

还不是VIP/贵宾

-

威望
0
论坛币
3852 个
通用积分
378.7263
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
2958 点
帖子
532
精华
0
在线时间
3 小时
注册时间
2017-3-31
最后登录
2023-10-31

楼主
peylinn8 发表于 2020-1-28 11:12:55 来自手机 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
2020/01/28
《百面机器学习-算法工程师带你去面试》读书笔记
《No.27: p256~p267》第11章 强化学习

Q95 强化学习中有哪些基本概念?

1        强化学习的基本概念
1.1        强化学习是一个20世纪80年代兴起的,受行为心理学启发而来的。
1.2        它关注身处某个环境中的决策器通过采取行动获得最大化的累积收益。
1.3        决策器只能得到一个间接的反馈,无法得到正确的输入/输出,因此需要不断的尝试优化自己的策略来获得更高的收益。
2        强化学习的基本场景: 由以下5个状态构成
2.1        环境(environment)
2.2        机器人(agent)
2.3        状态(state)
2.4        动作(action)
2.5        奖励(reward)
3        一个机器人在环境中会做各种动作,环境会接收动作,并引起自身状态的变迁,同时给机器人以奖励。机器人最大的目标是使用一些策略,做合适动作、最大化自身的收益。
4        强化学习的核心任务: 学习一个从状态空间S到动作空间A的映射,最大化累积收益。
5        常用的强化学习算法: 有Q-Learning、策略梯度,以及演员评判家算法(Actor-Critic)

Q96、Q97 强化学习用哪些方法,可找到最优路线?

透过<价值迭代>及<策略迭代>的方式。

1.        价值迭代: 当前的状态价值=从当前状态开始,能够获得的最大奖励。迭代过程透过贝尔曼方程式来进行更新。
2.        策略迭代: 就是根据当前状态决定该采取何种动作。并用策略评估(policy evaluation)来计算每个策略的期望价值。

Q98 什么是深度强化学习,它和传统的强化学习有何不同?

1        何谓深度强化学习: 也适用Q-Learning为基本框架,把对应步骤改为深度形式并引入了一些技巧,如经验重收(experience replay)来加快收敛及提高泛化能力。
2        与传统强化学习有何不同?
2.1        行动的决定
2.1.1        传统:根据当前的函数选择一个行动
2.1.2        深度: 透过随机方式选择行动。
2.2        当前状态的获得
2.2.1        传统: 直接从环境观测
2.2.2        深度: 需要对观测的结果进行某些处理来获得函数的输入状态。
2.3        获得四元组的方式
2.3.1        传统: 依照当前时刻来决定。
2.3.2        深度: 从历史记录随机采样
2.4        计算y
2.4.1        传统: 状态序列是无限的。
2.4.2        深度: 还额外考虑有限长的状态序列。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


沙发
512661101 发表于 2020-1-28 11:46:56 来自手机

藤椅
jessie68us 发表于 2020-2-5 22:24:52 来自手机

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-22 23:42