您的位置: 首页 >互联网 >

微软的ZeRO-2与深度速度训练神经网络高达1700亿个参数

2022-09-13 05:22:04 编辑:水希兴 来源:
导读 微软今天升级了它的DeepSpeed库,用ZeRO-2训练大型神经网络。微软表示,内存优化技术能够训练1700亿个参数的机器学习模型。就背景而言,英...

微软今天升级了它的DeepSpeed库,用ZeRO-2训练大型神经网络。微软表示,内存优化技术能够训练1700亿个参数的机器学习模型。就背景而言,英伟达庞大的威震天语言模型是当今世界上最大的语言模型之一,拥有110亿个参数。

今天的声明是在DeepSpeed库2月份的开源发布之后发布的,该库用于创建Turing-NLG。Turing-NLG拥有170亿个参数,是目前世界上已知的最大的语言模型。微软在2月份推出了零冗余优化器(Zero)和DeepSpeed。

ZeRO通过减少数据并行中的内存冗余来实现其结果,这是另一种将大型模型放入内存的技术。ZeRO-1包含一些模型状态内存优化,而ZeRO-2提供了激活内存和片段内存的优化。

DeepSpeed是为跨多台服务器的分布式模型训练而设计的,但ZeRO-2也在单GPU上对训练模型进行了改进,据报道,训练模型如谷歌的BERT提高了30%。

更多细节将在周三由微软首席技术官凯文·斯科特(Kevin Scott)发表的主题演讲中宣布。

这一消息是在微软全数字构建开发者大会开幕之际发布的,会上宣布了多项人工智能开发成果,包括用于机器学习中的差异隐私的WhiteNoise工具包,以及用于人工智能工业应用的盆栽项目。

上周,英伟达CEO黄延森发布了Ampere GPU架构和A100 GPU。新的GPU芯片——以及多模态模型和大规模推荐系统等趋势——将在未来几年引领更大的机器学习模型。


免责声明:本文由用户上传,如有侵权请联系删除!

精彩推荐

图文推荐

点击排行

2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ280 715 8082   备案号:闽ICP备19027007号-6

本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。