您的位置: 首页 >互联网 >

Google的第四代张量处理单元公开发布

2020-07-31 08:44:35 编辑: 来源:国际品牌资讯
导读 Google的第四代张量处理单元(TPU)直到今天才公开发布,它可以在接近记录的壁钟时间内完成AI和机器学习训练工作量。这是根据MLPerf发布的最

Google的第四代张量处理单元(TPU)直到今天才公开发布,它可以在接近记录的壁钟时间内完成AI和机器学习训练工作量。这是根据MLPerf发布的最新一组指标得出的。该指标是MLPerf套件背后的70多家公司和学术机构组成的联盟,用于AI性能基准测试。它显示了第四代TPU的集群在对象检测,图像分类,自然语言处理,机器翻译和推荐基准方面超过了第三代TPU(甚至是Nvidia最近发布的A100的集群)的功能。

谷歌表示,其第四代TPU提供的矩阵乘法TFLOP是第三代TPU的两倍以上,其中单个TFLOP相当于每秒1万亿个浮点运算。(矩阵通常用于表示输入到AI模型中的数据。)它还提供了“显着”的内存带宽提升,同时受益于互连技术的未指定进步。谷歌表示,总体而言,在相同的64芯片规模上,并且不考虑软件带来的改进,在去年的MLPerf基准测试中,第四代TPU的性能平均比第三代TPU提升了2.7倍。

Google的TPU是专用于加速AI的专用集成电路(ASIC)。它们是液冷的,旨在插入服务器机架中。交付多达100 petaflops的计算;并增强Google产品的功能,例如Google搜索,Google相册,Google翻译,Google助手,Gmail和Google Cloud AI API。谷歌在其年度I / O开发人员大会上宣布了2018年的第三代产品,今天早晨揭开了继任者的序幕,后者处于研究阶段。

Google AI软件工程师Naveen Kumar在博客中写道:“这表明了我们致力于大规模开展机器学习研究和工程,并通过开源软件,Google产品和Google Cloud向用户提供这些进步的承诺。”“机器学习模型的快速培训对于提供以前无法实现的新产品,服务和研究突破的研究和工程团队至关重要。”

今年的MLPerf结果表明,谷歌的第四代TPU不容小at。在涉及使用ImageNet数据集对算法(ResNet-50 v1.5)进行至少75.90%的准确度训练的图像分类任务中,在1.82分钟内完成了256个第四代TPU。这几乎与768个Nvidia A100图形卡,192个AMD Epyc 7742 CPU内核(1.06分钟)以及512个华为AI优化的Ascend910芯片与128个Intel Xeon Platinum 8168内核(1.56分钟)组合在一起的速度一样快。第三代TPU在0.48分钟的训练中获得了第四代跳动,但这也许仅是因为串联使用了4,096个第三代TPU。

在MLPerf的“重量级”对象检测类别中,第四代TPU稍稍领先一点。一个参考模型(Mask R-CNN)在9.95分钟内用256个第四代TPU进行了COCO语料库的训练,达到了512个第三代TPU的惊人距离(8.13分钟)。在自然语言处理工作量上,需要在WMT英语-德语数据集上训练Transformer模型,因此在0.78分钟内完成了256个第四代TPU。4,096个第三代TPU需要0.35分钟,而480个Nvidia A100卡(加上256个AMD Epyc 7742 CPU内核)需要0.62分钟。

当负责在大型维基百科语料库上训练BERT


免责声明:本文由用户上传,如有侵权请联系删除!

2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ280 715 8082   备案号:闽ICP备19027007号-6

本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。