人大经济论坛 › 论坛 › 提问悬赏求职新闻读书功能一区 › 学道会 › 【学习笔记】谷歌大脑提出“洗发水”二阶优化算法，Tran ...

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: ccwwccww

691 1

[学习笔记] 【学习笔记】谷歌大脑提出“洗发水”二阶优化算法，Transformer训练时间减少4 ... [推广有奖]

13关注
75粉丝

大师

55%

还不是VIP/贵宾

威望: 0 级
论坛币: 367109 个
通用积分: 193149.9426
学术水平: 202 点
热心指数: 220 点
信用等级: 170 点
经验: 13217 点
帖子: 11027
精华: 0
在线时间: 5739 小时
注册时间: 2008-3-25
最后登录: 2024-5-13

楼主

ccwwccww 发表于 2020-3-27 17:59:52 来自手机 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

谷歌大脑提出“洗发水”二阶优化算法，Transformer训练时间减少40%
机器学习的优化步骤，目前都是一阶方法主导。
无论是SGD还是Adam，此类优化算法在都是计算损失函数的一阶导数——梯度，然后按照某种规定的方式让权重随梯度下滑方向迭代。
其实二阶梯度会有更好的特性，因为它是计算梯度的导数，能够更快地找到最合适的下降方向和速度。
然而出于计算量和存储成本的考虑，二阶优化算法很少用到。
最近，谷歌大脑提出了一种新的二阶预处理方法，带来很大改进，优于SGD、Adam和AdaGrad等一阶算法，缩短了神经网络的训练时间。它是对之前一种二阶方法洗发水算法（Shampoo algorithm）做的实用化改进。
它在Transformer训练任务中比任何一阶方法都快得多，而且能达到相同甚至更高的精度。连Jeff Dean也不禁在Twi上点赞。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：transform Former Trans form 学习笔记

[学习笔记] 【学习笔记】谷歌大脑提出“洗发水”二阶优化算法，Transformer训练时间减少4 ... [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

初级热心勋章

本版微信群

[学习笔记] 【学习笔记】谷歌大脑提出“洗发水”二阶优化算法，Transformer训练时间减少4 ... [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

初级热心勋章

本版微信群

扫码加我拉你入群