DeepMind研究人员开发神经算术逻辑单元

2019-06-12 17:00:27 编辑：来源：

导读在许多物种中可以观察到表示和操纵数量的能力，包括昆虫，哺乳动物和人类。这表明基本的定量推理是智力的重要组成部分，具有几个进化优势。

在许多物种中可以观察到表示和操纵数量的能力，包括昆虫，哺乳动物和人类。这表明基本的定量推理是智力的重要组成部分，具有几个进化优势。

此功能在机器中非常有价值，可以更快，更有效地完成涉及数字操作的任务。然而，到目前为止，经过训练来表示和操纵数字信息的神经网络很少能够在训练过程中遇到的值范围之外得到很好的推广。

Google DeepMind的一组研究人员最近开发了一种新的架构来解决这一局限，在神经网络训练的数值范围内外实现更好的泛化。他们的研究预先发布在arXiv上，可以为开发更先进的机器学习工具提供信息，以完成定量推理任务。

“当标准的神经架构被训练成数字时，它们往往难以计入更高的数量，”该项目首席研究员Andrew Trask告诉Tech Xplore。“我们探索了这个局限，并发现它也扩展到其他算术函数，导致我们的假设，即神经网络学习类似于他们如何学习单词的数字，作为一个有限的词汇。这可以防止他们正确地推断需要以前看不见的函数(更高)我们的目标是提出一种可以进行更好推断的新架构。“

研究人员设计了一种架构，通过将数值表示为使用原始算术运算符(由学习门控制)操纵的线性激活，鼓励更系统的数字推断。他们称这个新模块为神经算术逻辑单元(NALU)，其灵感来自传统处理器中的算术逻辑单元。

“数字通常使用单热或分布式表示在神经网络中编码，而数字上的函数是在一系列具有非线性激活的层中学习的，”特拉斯克解释说。“我们建议数字应该存储为标量，在每个神经元中存储一个数字。例如，如果你想存储数字42，你应该只有一个包含'42'的激活的神经元，而不是一系列0-1神经元编码它。“

研究人员还改变了神经网络在这些数字上学习函数的方式。他们没有使用可以学习任何功能的标准体系结构，而是设计了一种体系结构，该体系结构向前传播预定义的一组函数，这些函数被视为可能有用(例如，加法，乘法或除法)，使用神经架构来学习这些注意机制。功能。

“这些关注机制随后决定何时何地应用每种可能有用的功能而不是学习该功能本身，”特拉斯克说。“这是创建具有理想的数学函数学习偏差的深度神经网络的一般原则。”

他们的测试表明，NALU增强神经网络可以学习执行各种任务，例如时间跟踪，对数字图像执行算术功能，将数字语言翻译成实值标量，执行计算机代码和计算图像中的对象。

与传统架构相比，它们的模块在训练期间呈现的数值范围内外都获得了明显更好的泛化。虽然NALU可能不是每项任务的理想解决方案，但他们的研究提供了一种通用设计策略，用于创建在特定功能类别上表现良好的模型。

“一个概念深层神经网络应该从一组预定义的功能选择和学会理事在使用它们的注意力机制是一个非常可扩展的想法，”特拉斯克解释。“在这项工作中，我们探索了简单的算术函数(加法，减法，乘法和除法)，但是我们对将来在更强大的函数上学习注意机制的潜力感到兴奋，也许会带来我们观察到的相同的外推结果。各种各样的领域。“

标签： DeepMind