楼主: 时光人
747 0

强化学习概述 [推广有奖]

  • 3关注
  • 34粉丝

已卖:165份资源

院士

23%

还不是VIP/贵宾

-

威望
1
论坛币
26913 个
通用积分
429.8724
学术水平
95 点
热心指数
109 点
信用等级
91 点
经验
39970 点
帖子
1630
精华
3
在线时间
580 小时
注册时间
2019-2-25
最后登录
2025-5-6

楼主
时光人 学生认证  发表于 2020-9-17 15:50:43 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
强化学习是一种学习方法,我们通过在计算机执行操作时向计算机提供反馈来教会计算机执行某些任务。这与监督学习的不同之处在于,我们没有明确提供正确和不正确的示例说明应如何完成任务,我们只是告诉计算机何时可以很好地完成任务。强化学习也不同于无监督学习,因为即使我们没有提供明确的示例,我们也会向计算机提供一定程度的反馈。

这种学习方法涉及试剂(即计算机/机器人)探讨的环境(物理或虚拟世界),以完成某些任务是由与所述建立激励机制剂教导奖励。代理会学习一个策略,该策略指示在给定该代理当前状态的情况下应采取的最佳措施。

在此主题的接下来的几篇文章中,我将讨论用于强化学习的常用技术。这篇文章将主要介绍一些关键概念,这些概念将在我讨论强化学习技术时出现。

规划与学习
规划是指在已知环境的条件和状态时,找到在环境中采取的最佳行动,以完成某些任务(或更确切地说,是最大化回报)。对于这种情况,您可以在代理移动之前直接计算最佳策略。您可以将其视为制定具有系统“上帝之眼”观点的策略。

学习是指在代理人以前不了解环境的情况下,在环境中找到最佳的一组动作来完成任务。因此,代理必须探索环境并学习采取最佳措施。对于学习的情况,代理程序的政策会随着环境的发展而不断完善。这更像是一个与世界互动的人,他们仅限于通过自己的观察经历,而他们天生就一无所知。

探索与开发
对于学习任务,您想探索环境,以便学习在环境中采取的最佳措施。在探索时,您会随机采取行动以查看最终结果。

但是,在学习过程中,您会就什么行动比其他行动更好地产生想法-这很有意义,您想利用自己学到的知识来选择不良行为而不是不良行为。

最终,您必须在选择更多地探索环境和使用到目前为止所学的知识之间找到平衡。

为了换个角度看待这个折衷方案,假设您参观了镇上的一家新意大利餐厅,并且您订购的第一顿饭非常美味。下次再回去时,您是否选择尝试做其他事情以免它不那么好做,还是选择坚持使用您已经知道的美味?本质上,这是勘探与开发之间的权衡。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:学习方法 不良行为 激励机制 虚拟世界 一无所知

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-3 03:41