[书籍介绍] [2018年新书]使用Python实践强化学习：掌握深度强化学习算法示例的丰富实践指南 [推广有奖]

1关注
19粉丝

教授

68%

还不是VIP/贵宾

威望: 0 级
论坛币: 25033 个
通用积分: 206.4449
学术水平: 41 点
热心指数: 57 点
信用等级: 40 点
经验: 125414 点
帖子: 1835
精华: 0
在线时间: 1145 小时
注册时间: 2013-6-12
最后登录: 2023-7-15

楼主

幸运符 发表于 2018-8-21 01:18:15 |只看作者 |坛友微信交流群|倒序 |AI写论文

相似文件

换一批

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

使用Python实践强化学习：掌握深度强化学习算法示例的丰富实践指南

详细信息:
平装书: 448 页
出版日期: 2018年6月28日
语言: 英语
ISBN-10: 1788836529
ISBN-13: 978-1788836524

本书涵盖的内容
第1章，强化学习简介，帮助我们了解强化学习是什么以及它是如何工作的。我们将学习强化学习的各种元素，例如代理，环境，策略和模型，我们将看到用于强化学习的不同类型的环境，平台和库。在本章后面，我们将看到强化学习的一些应用。
第2章，OpenAI和TensorFlow入门，帮助我们为各种强化学习任务设置我们的机器。我们将通过安装Anaconda，Docker，OpenAI Gym，Universe和TensorFlow来学习如何设置我们的机器。然后我们将学习如何在OpenAI Gym中模拟代理，我们将看到如何构建视频游戏机器人。我们还将学习TensorFlow的基础知识，并了解如何使用TensorBoard进行可视化。
第3章，马尔可夫决策过程和动态规划，首先解释马尔可夫链和马尔可夫过程是什么，然后我们将看到如何加固学习问题可以建模为马尔可夫决策过程。我们还将学习几个基本概念，例如值函数，Q函数和Bellman方程。然后我们将看到动态规划是什么以及如何使用价值和政策迭代来解决冻湖问题。
第4章，蒙特卡罗方法游戏，解释蒙特卡罗方法和不同类型的蒙特卡罗预测方法，如首次访问MC和每次访问MC。我们还将学习如何使用蒙特卡罗方法来玩二十一点。然后我们将探索不同的政策和非政策蒙特卡罗控制方法。
第5章，时间差异学习，包括时间差（TD）学习，TD预测，TD非政策和政策控制方法，如Q学习和SARSA。我们还将学习如何使用Q学习和SARSA解决税收问题。
第6章，多武装强盗问题，处理强化学习，多臂强盗（MAB）或karmed强盗问题的经典问题之一。我们将学习如何使用各种探索策略来解决这个问题，例如epsilon-greedy，softmax exploration，UCB和Thompson采样。在本章后面，我们将看到如何使用MAB向用户显示正确的广告横幅。
第7章，深度学习基础，涵盖了深度学习的各种基本概念。首先，我们将了解神经网络是什么，然后我们将看到不同类型的神经网络，例如RNN，LSTM和CNN。我们将通过构建几个执行任务的应用程序来学习，例如生成歌词和分类时尚产品。
第8章，使用Deep Q Network的Atari Games，涵盖了最广泛使用的深度强化学习算法之一，称为深度Q网络（DQN）。我们将通过探索其各种组件来了解DQN，然后我们将看到如何使用DQN构建代理来玩Atari游戏。然后我们将看看DQN架构的一些升级，例如双DQN和决斗DQN。
第9章，使用深度循环Q网络播放末日，解释了深度循环Q网络（DRQN）及其与一个DQN。我们将看到如何使用DRQN构建代理来播放Doom。在本章后面，我们将了解深度关注的循环Q网络，它将注意机制添加到DRQN架构中。
第10章，Asynchronous Advantage Actor Critic Network，解释了Asynchronous Advantage Actor Critic（A3C）网络如何工作。我们将详细探讨A3C架构，然后我们将学习如何使用A3C建立一个驾驶高山的代理。
第11章，政策梯度和优化，涵盖政策梯度如何帮助我们找到正确的政策而无需Q功能。我们还将探索深度确定性政策梯度方法。在本章后面，我们将看到最先进的策略优化方法，如信任区域策略优化和近端策略优化。
第12章，Capstone项目 - 使用DQN赛车，提供构建代理的逐步方法使用决斗DQN赢得赛车游戏。
第13章，最新进展和后续步骤，提供有关强化学习的各种进步的信息，例如想象力增强代理人，从人类偏好中学习，从示范中深入学习，以及事后体验重播然后我们将研究不同类型的强化学习方法，例如分层强化学习和逆强化学习。

网友评论： Python强化学习实践教程强化学习目前热门！这个机器学习的分支支持者AlphaGo和Deepmind的Atari AI。其可以让程序员开发能够学习为追求最大汇报了而采取优化行为的软件代理，在一个给定的环境中视图比较不同的策略。本教程将带你学习强化学习的所有核心概念，在OpenAIGym的帮助下，将一个理论化的主题转换为实质的Python代码体验。本教程首先会指导你了解gym环境，解决CartPole-v0游戏机器人问题，然后会学习编码和使用Python解决multi-armed bandit问题。随着课程的深入，你还会学习到如何使用动态编程和基于TensorFlow的神经网络解决GridWorld，另一个OpenAI Gym挑战。最后，我们将处理21点问题，并部署使用了蒙特卡洛方法和Temporal Difference技术的没有给定模型的算法。