楼主: ada89k
5791 7

十分钟看懂AlphaGo的核心算法 [推广有奖]

  • 3关注
  • 72粉丝

已卖:341份资源

学术权威

0%

还不是VIP/贵宾

-

威望
2
论坛币
2836 个
通用积分
23.7009
学术水平
123 点
热心指数
149 点
信用等级
82 点
经验
46259 点
帖子
1664
精华
3
在线时间
2500 小时
注册时间
2017-2-7
最后登录
2026-1-4

楼主
ada89k 在职认证  发表于 2018-1-13 17:48:45 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

十分钟看懂AlphaGo的核心算法



围棋是一个完全信息博弈问题。而完全信息博弈,通常能被简化为寻找最优值的树搜索问题。它含有 b 的 d 次方个可能分支,在国际象棋中 b≈35,d≈80;而在围棋中b≈250,d≈150。很显然,对于围棋,用穷举法或简单的寻路算法(heuristics)是行不通的。但有效的方法是存在的:

从策略(policy) P(a|s) 中取样 action,降低搜索广度

通过位置评估降低搜索深度

把策略和值用蒙特卡洛树搜索(MCTS)结合起来。

通常的步骤是:

用一个 13 层的 CNN,直接从人类棋步中训练一个监督学习策略网络 Pσ。输入为 48 x 19 x 19 的图像(比方说,它的组成棋子颜色是 3 x 19 x 19),输出是使用 softmax 层预测的全部落子的概率。精确度是 55.7%。

训练一个能在运行时快速取样 action 的快速策略 Pπ。这会用一个基于小型模式特征的线性 softmax。精确度是 24.2%,但它计算一次落子只用 2 微秒,而不像 Pσ 需要 3 毫秒。

训练一个增强学习策略网络 Pρ ,通过优化博弈结果来进一步提升监督策略网络。这把策略网络向赢棋优化,而不是优化预测精确度。本质上,Pρ 与 Pσ 的结构是一样的。它们的权重使用相同值 ρ=σ 初始化。对弈的两个选手,是当前策略网络 Pρ 和随机(防止过拟合)选择的此前的策略网络迭代。

训练一个价值网络(value network)Vθ,来预测强化学习策略网络自己和自己下棋的赢家。该网络的架构和策略网络类似,但多出一个特征平面(当前玩家的颜色),并且输出变成了单一预测(回归,均方差损失)。根据完整棋局来预测对弈结果,很容易导致过拟合。这是由于连续落子位置之间高度相关,只有一子之差。因此,这里使用了强化学习策略网络自己与自己对弈新生成的数据。该数据从包含 3000 万个不同位置的独立棋局中抽取。

把策略网络、价值网络、快速策略和蒙特卡洛树搜索结合起来。一个标准的蒙特卡洛树搜索过程包含四步:选择、扩展、评估、备份。为了让大家更容易理解,我们只粗略讲了讲它如何在模拟中选择状态的部分(如对数学感兴趣,请到原始论文中找公式)。

状态分数=价值网络输出+快速运行(fast rollout)的策略结果+监督学习策略网络输出

高状态得分(或者说落子)会被选择。价值网络输出和快速运行策略结果是评估函数,在叶子节点进行评估(注意,为了评估快速运行,需要一直到最后一步)。监督学习策略网络输出是一个当前阶段的 action 概率,充作选取分数的奖励分。该分数会随访问次数而退化,以鼓励探索。注意强化学习策略网络只被用于辅助,来生成价值网络,并没有直接在蒙特卡洛树搜索中使用。

到这就结束了,以上就是战胜了人类的 AlphaGo 算法!

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Alpha 核心算法 ago Pha heuristics

已有 1 人评分经验 学术水平 热心指数 收起 理由
cheetahfly + 80 + 1 + 1 精彩帖子

总评分: 经验 + 80  学术水平 + 1  热心指数 + 1   查看全部评分

沙发
钱学森64 发表于 2018-1-13 17:51:59
谢谢分享

藤椅
厄尔蒙加 在职认证  发表于 2018-1-13 19:04:01
谢谢分享~

板凳
飞虎娇娃 在职认证  发表于 2018-1-14 09:30:48
谢谢楼主分享

报纸
欧伟万峰1324 在职认证  发表于 2018-1-14 10:41:00
在信息完整的情况下,在棋局的每一步,计算机可以使用穷举法,自己与自己下棋(self-play),尝试每一个选择,模拟所有可能的完整战局,观察结果,然后选出最佳走法。

地板
boyz111 发表于 2018-1-14 14:16:19
谢谢分享~

7
gxnnhgm66 发表于 2018-1-14 23:58:35
谢谢分享~

8
eeabcde 发表于 2018-1-16 10:41:10
谢谢楼主分享 !通俗易懂

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-2 09:16