诚信为本:市场永远在变,诚信永远不变。
咨询热线:0898-08980898

咨询热线

0898-08980898
手机:13988888888
电话:0898-08980898
地址:海南省海口市
邮箱:admin@youweb.com

耀世资讯

当前位置: 首页 > 耀世资讯

斯坦福马腾宇团队新工作|Sophia优化器,仅多几行代码实现大模型训练2倍加速,成本减半

发布时间:2024-04-15 11:52:48点击量:

智源社区日报关注订阅

Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training

Hong Liu, Zhiyuan Li, David Hall, Percy Liang, Tengyu Ma
[Stanford University]

Sophia: 面向语言模型高效预训练的可扩展随机二阶优化器。Sophia是一种轻量的二阶优化器,可用于语言模型预训练,通过估计对角Hessian矩阵和剪切机制实现了更快(2倍)的训练速度。

Sophia优化器,仅仅多几行代码就可以把你的成本从200万美元减少到100万美元,还可实现2倍加速。

 

 

为减少语言模型预训练的时间和成本。本文提出一种名为Sophia的可扩展二阶优化器,使用轻量对角Hessian估计作为预条件器,并通过剪切机制控制最坏情况下的更新大小。

与Adam相比,在GPT-2等语言模型的预训练中,Sophia在步数、总计算量和挂钟(wall-clock)时间方面实现了2倍的加速。

论文地址:https://arxiv.org/abs/2305.14342 

相关资讯:https://twitter.com/tengyuma/status/1661412995430219786 



图片

 

Copyright © 2012-2018 耀世娱乐-耀世平台-注册登录app下载入口 版权所有    ICP备案编号:粤ICP备88888888号

平台注册入口