楼主: ccwwccww
691 1

[学习笔记] 【学习笔记】谷歌大脑提出“洗发水”二阶优化算法,Transformer训练时间减少4 ... [推广有奖]

大师

55%

还不是VIP/贵宾

-

威望
0
论坛币
367109 个
通用积分
193149.9426
学术水平
202 点
热心指数
220 点
信用等级
170 点
经验
13217 点
帖子
11027
精华
0
在线时间
5739 小时
注册时间
2008-3-25
最后登录
2024-5-13

楼主
ccwwccww 发表于 2020-3-27 17:59:52 来自手机 |只看作者 |坛友微信交流群|倒序 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
谷歌大脑提出“洗发水”二阶优化算法,Transformer训练时间减少40%
机器学习的优化步骤,目前都是一阶方法主导。
无论是SGD还是Adam,此类优化算法在都是计算损失函数的一阶导数——梯度,然后按照某种规定的方式让权重随梯度下滑方向迭代。
其实二阶梯度会有更好的特性,因为它是计算梯度的导数,能够更快地找到最合适的下降方向和速度。
然而出于计算量和存储成本的考虑,二阶优化算法很少用到。
最近,谷歌大脑提出了一种新的二阶预处理方法,带来很大改进,优于SGD、Adam和AdaGrad等一阶算法,缩短了神经网络的训练时间。它是对之前一种二阶方法洗发水算法(Shampoo algorithm)做的实用化改进。
它在Transformer训练任务中比任何一阶方法都快得多,而且能达到相同甚至更高的精度。连Jeff Dean也不禁在Twi上点赞。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:transform Former Trans form 学习笔记

沙发
512661101 发表于 2020-3-27 21:50:12 来自手机 |只看作者 |坛友微信交流群

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-13 11:36