楼主: ccwwccww
1015 1

[学习笔记] 【学习笔记】谷歌大脑提出“洗发水”二阶优化算法,Transformer训练时间减少4 ... [推广有奖]

已卖:2469份资源

大师

57%

还不是VIP/贵宾

-

威望
0
论坛币
349637 个
通用积分
193046.0295
学术水平
202 点
热心指数
220 点
信用等级
170 点
经验
13385 点
帖子
11027
精华
0
在线时间
6041 小时
注册时间
2008-3-25
最后登录
2025-7-31

楼主
ccwwccww 发表于 2020-3-27 17:59:52 来自手机 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
谷歌大脑提出“洗发水”二阶优化算法,Transformer训练时间减少40%
机器学习的优化步骤,目前都是一阶方法主导。
无论是SGD还是Adam,此类优化算法在都是计算损失函数的一阶导数——梯度,然后按照某种规定的方式让权重随梯度下滑方向迭代。
其实二阶梯度会有更好的特性,因为它是计算梯度的导数,能够更快地找到最合适的下降方向和速度。
然而出于计算量和存储成本的考虑,二阶优化算法很少用到。
最近,谷歌大脑提出了一种新的二阶预处理方法,带来很大改进,优于SGD、Adam和AdaGrad等一阶算法,缩短了神经网络的训练时间。它是对之前一种二阶方法洗发水算法(Shampoo algorithm)做的实用化改进。
它在Transformer训练任务中比任何一阶方法都快得多,而且能达到相同甚至更高的精度。连Jeff Dean也不禁在Twi上点赞。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:transform Former Trans form 学习笔记

沙发
512661101 发表于 2020-3-27 21:50:12 来自手机

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-1 03:44