看到的文章都说Double DQN将动作选择和价值估计分别放在当前网络和目标网络上计算,就能解决Nature DQN的过度估计问题,但是一直没想明白为什么,请问有没有哪位大神能解答一下,感谢~~~
|
楼主: 赤芍君
|
947
0
[其他] 为什么Double DQN能解决Nature DQN的过度估计问题 |
|
初中生 47%
-
|
| ||
|
|
加好友,备注cda京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明


