楼主: EchoEstelle
3998 1

各种数学方法(随机过程理论)的实现——强化机器学习 [推广有奖]

  • 0关注
  • 31粉丝

已卖:174份资源

教授

56%

还不是VIP/贵宾

-

威望
0
论坛币
6772 个
通用积分
1.2139
学术水平
220 点
热心指数
149 点
信用等级
90 点
经验
22842 点
帖子
498
精华
7
在线时间
839 小时
注册时间
2010-3-10
最后登录
2016-7-20

楼主
EchoEstelle 发表于 2014-9-18 19:03:30 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
强化学习是界于监督学习和无监督学习之间的学习。
我自己觉着这些语言描述都不是很好听。在过一阵我就能用自己的话讲它们了。
说不准,我还能自己造一个机器人猫头鹰宠物出来。
1.每一步决策目标根据高期望的收益和低期望的风险来决定。
2.选择它达到目的方式利用很优化的一些选择算法。
3.每一个下一步以最大可能达到最好目的为选择标准。

一.马尔科夫决策过程

1.价值函数、最优价值函数、最佳决策的定义
\[\mathcal{A.}对任意政策\pi,价值函数是从状态到实数的一个映射V^\pi:S\mapsto R,使得V^\pi(s)是从状态s和执行\pi开始的预期总收益,\]
\[\begin{alignat}{1}即:V^\pi(s)&=E\left(R(s_0)+\gamma R(s_1)+\gamma^2 R(s_2)+\cdots |\pi,s_0=s\right)\\&=E\left(R(s_0)+\gamma (R(s_1)+\gamma R(s_2)+\cdots) |\pi,s_0=s\right),包括即时回报和未来回报两部分\end{alignat}\]
\[V^\pi(s)=R(s)+\gamma \sum_{s'}^{}P_{s\, \pi(s)}(s')\cdot V^\pi(s') 被称作贝尔曼方程,表示从状态s到s'的期望总收益。\]
\[\mathcal{B.}最优价值函数V^{*}(s)=\underset{s}{\max}V^\pi(s)\]
\[贝尔曼方程版本的最优价值函数是:V^{*}(s)=R(s)+\underset{a}{\max}\gamma \sum_{s'}^{}P_{s\, a}(s')\cdot V^{*}(s')\]
\[\mathcal{C.}对给定的s,最佳决策是\pi^{*}(s)=\underset{a}{\arg \max}\gamma \sum_{s'}^{}P_{s\, a}(s')\cdot V^{*}(s')\]
—>总收益由即时收益累计而成。为什么即时收益要特殊处理?

2.解出最优价值函数
\[\begin{alignat}{1}值迭代过&步骤1:对所有的s初始化价值函数V(s)=0\\&步骤2:对每一个s,V(s):=R(s)+\underset{a}{\max}\gamma \,\sum_{s'}^{}P_{s\, a}(s')\cdot V^{*}(s')\end{alignat}\]
\[异步更新的概念:\]
\[\begin{alignat}{1}政策迭代&步骤1:随机初始化\pi.\\&步骤2:(1)V:=V^\pi ; (2)\pi(s):=\underset{a}{\arg \max}\sum_{s'}{}P_{s\, a}(s')\cdot V(s')\end{alignat}\]
\[可以证明价值函数和政策的收敛:V(s) \to V^{*}(s),\pi(s) \to \pi^{*}(s)\]
\[如果不知道P_{sa}怎么办?\]
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 随机过程 数学方法 马尔科夫决策 LaTeX 马尔科夫过程

我非我见我释我是我非我

沙发
fantuanxiaot 发表于 2014-9-18 21:19:36
楼主数模肯定挺牛的!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-27 03:24