Google的第四代张量处理单元公开发布

2020-07-31 08:44:35 编辑：来源：国际品牌资讯

导读 Google的第四代张量处理单元(TPU)直到今天才公开发布，它可以在接近记录的壁钟时间内完成AI和机器学习训练工作量。这是根据MLPerf发布的最

Google的第四代张量处理单元(TPU)直到今天才公开发布，它可以在接近记录的壁钟时间内完成AI和机器学习训练工作量。这是根据MLPerf发布的最新一组指标得出的。该指标是MLPerf套件背后的70多家公司和学术机构组成的联盟，用于AI性能基准测试。它显示了第四代TPU的集群在对象检测，图像分类，自然语言处理，机器翻译和推荐基准方面超过了第三代TPU(甚至是Nvidia最近发布的A100的集群)的功能。

谷歌表示，其第四代TPU提供的矩阵乘法TFLOP是第三代TPU的两倍以上，其中单个TFLOP相当于每秒1万亿个浮点运算。(矩阵通常用于表示输入到AI模型中的数据。)它还提供了“显着”的内存带宽提升，同时受益于互连技术的未指定进步。谷歌表示，总体而言，在相同的64芯片规模上，并且不考虑软件带来的改进，在去年的MLPerf基准测试中，第四代TPU的性能平均比第三代TPU提升了2.7倍。

Google的TPU是专用于加速AI的专用集成电路(ASIC)。它们是液冷的，旨在插入服务器机架中。交付多达100 petaflops的计算;并增强Google产品的功能，例如Google搜索，Google相册，Google翻译，Google助手，Gmail和Google Cloud AI API。谷歌在其年度I / O开发人员大会上宣布了2018年的第三代产品，今天早晨揭开了继任者的序幕，后者处于研究阶段。

Google AI软件工程师Naveen Kumar在博客中写道：“这表明了我们致力于大规模开展机器学习研究和工程，并通过开源软件，Google产品和Google Cloud向用户提供这些进步的承诺。”“机器学习模型的快速培训对于提供以前无法实现的新产品，服务和研究突破的研究和工程团队至关重要。”

今年的MLPerf结果表明，谷歌的第四代TPU不容小at。在涉及使用ImageNet数据集对算法(ResNet-50 v1.5)进行至少75.90%的准确度训练的图像分类任务中，在1.82分钟内完成了256个第四代TPU。这几乎与768个Nvidia A100图形卡，192个AMD Epyc 7742 CPU内核(1.06分钟)以及512个华为AI优化的Ascend910芯片与128个Intel Xeon Platinum 8168内核(1.56分钟)组合在一起的速度一样快。第三代TPU在0.48分钟的训练中获得了第四代跳动，但这也许仅是因为串联使用了4,096个第三代TPU。

在MLPerf的“重量级”对象检测类别中，第四代TPU稍稍领先一点。一个参考模型(Mask R-CNN)在9.95分钟内用256个第四代TPU进行了COCO语料库的训练，达到了512个第三代TPU的惊人距离(8.13分钟)。在自然语言处理工作量上，需要在WMT英语-德语数据集上训练Transformer模型，因此在0.78分钟内完成了256个第四代TPU。4,096个第三代TPU需要0.35分钟，而480个Nvidia A100卡(加上256个AMD Epyc 7742 CPU内核)需要0.62分钟。

当负责在大型维基百科语料库上训练BERT

标签： Google