微软的ZeRO-2与深度速度训练神经网络高达1700亿个参数

2022-09-13 05:22:04 编辑：水希兴来源：

导读微软今天升级了它的DeepSpeed库，用ZeRO-2训练大型神经网络。微软表示，内存优化技术能够训练1700亿个参数的机器学习模型。就背景而言，英...

微软今天升级了它的DeepSpeed库，用ZeRO-2训练大型神经网络。微软表示，内存优化技术能够训练1700亿个参数的机器学习模型。就背景而言，英伟达庞大的威震天语言模型是当今世界上最大的语言模型之一，拥有110亿个参数。

今天的声明是在DeepSpeed库2月份的开源发布之后发布的，该库用于创建Turing-NLG。Turing-NLG拥有170亿个参数，是目前世界上已知的最大的语言模型。微软在2月份推出了零冗余优化器(Zero)和DeepSpeed。

ZeRO通过减少数据并行中的内存冗余来实现其结果，这是另一种将大型模型放入内存的技术。ZeRO-1包含一些模型状态内存优化，而ZeRO-2提供了激活内存和片段内存的优化。

DeepSpeed是为跨多台服务器的分布式模型训练而设计的，但ZeRO-2也在单GPU上对训练模型进行了改进，据报道，训练模型如谷歌的BERT提高了30%。

更多细节将在周三由微软首席技术官凯文·斯科特(Kevin Scott)发表的主题演讲中宣布。

这一消息是在微软全数字构建开发者大会开幕之际发布的，会上宣布了多项人工智能开发成果，包括用于机器学习中的差异隐私的WhiteNoise工具包，以及用于人工智能工业应用的盆栽项目。

上周，英伟达CEO黄延森发布了Ampere GPU架构和A100 GPU。新的GPU芯片——以及多模态模型和大规模推荐系统等趋势——将在未来几年引领更大的机器学习模型。

标签：

免责声明：本文由用户上传，如有侵权请联系删除！

本站除标明“本站原创”外所有信息均转载自互联网版权归原作者所有。