工程师们为人工智能瓶颈提供了聪明及时的想法

2020-06-22 15:24:09 编辑：来源：

导读莱斯大学(Rice University)的研究人员已经展示了设计创新的以数据为中心的计算硬件的方法，以及与机器学习算法共同设计硬件的方法，这些方法可以将能源效率提高两个数量级。机器学习的进步，即自动驾驶汽车和许多其他高科技应用背后的人工智能的形式，已经引领了一个新的计算时代——以数据为中心的时代——并迫使工程师们重新思考计算机架构的各个方面，这些方面在过去的75年中几乎没有受到挑战。 ”问

莱斯大学(Rice University)的研究人员已经展示了设计创新的以数据为中心的计算硬件的方法，以及与机器学习算法共同设计硬件的方法，这些方法可以将能源效率提高两个数量级。

机器学习的进步，即自动驾驶汽车和许多其他高科技应用背后的人工智能的形式，已经引领了一个新的计算时代——以数据为中心的时代——并迫使工程师们重新思考计算机架构的各个方面，这些方面在过去的75年中几乎没有受到挑战。

”问题是大规模深层神经网络,对机器学习最先进的今天,超过90%的整个系统运行所需的电力消耗的内存和处理器之间的数据移动,”林Yingyan说,电气和计算机工程助理教授。

Lin和合作者提出了两种互补的方法来优化以数据为中心的处理，这两种方法都在6月3日的国际计算机架构研讨会(ISCA)上提出，这是计算机架构新想法和研究的重要会议之一。

对数据中心架构的驱动与一个被称为冯·诺伊曼瓶颈(von Neumann瓶颈)的问题有关，这是一种效率低下的问题，源自于自数学家约翰·冯·诺伊曼(John von Neumann)于1945年发明以来一直统治着计算架构的内存和处理分离。通过将内存从程序和数据中分离出来，冯·诺伊曼架构使一台计算机变得不可思议地多才多艺;根据从内存中加载的存储程序，计算机可以用来进行视频通话、准备电子表格或模拟火星上的天气。

但将内存与处理分离也意味着即使是简单的操作，比如2加2，也需要计算机处理器多次访问内存。这种内存瓶颈在深度神经网络(通过“研究”大量以前的例子来学习做出类似人类决策的系统)的大规模操作中变得更糟。网络越大，它所能掌握的任务就越难，显示的例子越多，它的性能就越好。深度神经网络训练可能需要一批专门的处理器，这些处理器24小时不停地运行一个多星期。在智能手机上根据学习到的网络执行任务——这个过程称为推理——可以在不到一个小时内耗尽电池。

“人们普遍认为，对于机器学习时代的以数据为中心的算法，我们需要创新的以数据为中心的硬件架构，”赖斯高效与智能计算(EIC)实验室主任林说。“但机器学习的最佳硬件架构是什么?”

她说:“没有一个统一的答案，因为不同的应用程序需要的机器学习算法可能在算法结构和复杂性方面有很大的不同，同时有不同的任务准确性和资源消耗(如能源成本、延迟和吞吐量权衡要求)。”“许多研究人员正在对此进行研究，像英特尔、IBM和谷歌这样的大公司都有自己的设计。”

林的团队在ISCA 2020年的一次演讲中展示了她和她的学生为“内存处理”(PIM)开发的创新架构的成果，PIM是一种将处理引入内存阵列的非冯·诺伊曼方法。一个有前途的PIM平台是“电阻随机访问存储器”(ReRAM)，一种类似于flash的非易失性存储器。Lin说，虽然已经提出了其他的ram PIM加速器架构，但在超过10个深度神经网络模型上进行的实验发现，及时发现的能效是最具竞争力的最先进的ram PIM加速器的18倍，其计算密度是最先进的30倍以上。

及时，即“时域、内存执行、局部性”，通过消除由于频繁访问主存以处理中间输入和输出以及本地和主存之间的接口而导致的效率低下，从而实现了它的性能。

在主存储器中，数据是数字存储的，但是当它被带到本地存储器中进行内存处理时，必须转换为模拟数据。在以前的PIM加速器中，产生的数值从模拟转换为数字，然后送回主存储器。如果它们被从主存调用到本地重新运行以进行后续操作，它们将再次转换为模拟，依此类推。

通过在本地内存中使用模拟格式缓冲区，及时避免了不必要的访问主存和接口数据转换的开销。这样，将大部分需要的数据及时保存在本地内存数组中，大大提高了效率。

在2020年ISCA大会上，该组织的第二项提案是SmartExchange，这是一种结合算法和加速硬件创新以节约能源的设计。

“与执行一次计算相比，访问主内存(戏剧化)的能量消耗要高出约200倍，因此SmartExchange的关键理念是在算法中强化结构，使我们可以用高成本的内存换取低成本的计算，”Lin说。

“例如，假设我们的算法有1000个参数，”她补充道。“在传统的方法中，我们将在DRAM中存储所有1000个数据，并根据计算需要进行访问。通过SmartExchange，我们可以在这1000人中找到一些结构。然后我们只需要存储10，因为如果我们知道这10和剩下的990之间的关系，我们就可以计算任何一个990，而不用从DRAM调用它们。

她说:“我们将这10个‘基础’子集称为‘基础’子集，其想法是将这些存储在靠近处理器的本地，以避免或大幅减少访问DRAM的成本。”

研究人员使用SmartExchange算法和他们的定制硬件加速器在七个基准深度神经网络模型和三个基准数据集上进行实验。他们发现，与最先进的深度神经网络加速器相比，这种组合将延迟降低了19倍之多。

标签：人工智能