一种生成记忆方法可实现终身强化学习

2019-06-03 10:46:29 编辑：来源：

导读现有人工智能(AI)系统的一个关键限制是它们无法处理未经过培训的任务。事实上，即使他们接受了再培训，大多数这些系统都容易发生灾难性遗忘

现有人工智能(AI)系统的一个关键限制是它们无法处理未经过培训的任务。事实上，即使他们接受了再培训，大多数这些系统都容易发生“灾难性遗忘”，这实际上意味着新项目可能会破坏他们以前获得的知识。

例如，如果最初训练模型以完成任务 A然后随后在任务B上重新训练，则其在任务A上的表现可能会显着下降。一个天真的解决方案是无限添加更多的神经层来支持正在训练的其他任务或项目，但这种方法效率不高，甚至功能可扩展。

SRI国际的研究人员最近尝试将生物记忆传递机制应用于AI系统，因为他们认为这可以提高他们的表现并使他们更具适应性。他们的研究预先发表在arXiv上，从人类记忆转移机制中汲取灵感，如长期和短期记忆。

“我们正在构建可以从经验中学习的新一代人工智能系统，” DARPA终身学习机(L2M)项目的联合PI的Sek Chai 告诉TechXplore。“这意味着他们可以根据自己的经验适应新的情景。今天，AI系统因为不适应而失败。由Hava Siegelmann博士领导的DARPA L2M项目旨在实现人工智能能力的范式转变。”

记忆转移需要一系列复杂的动态过程，使人们在思考，计划，创建或预测未来事件时能够轻松访问显着或相关的记忆。睡眠被认为在巩固记忆方面起着至关重要的作用，特别是REM睡眠，即最常发生梦的阶段。

在他们的研究中，Chai和他的SRI同事开发了一种生成记忆机制，可用于以伪排练的方式训练AI系统。使用重放和强化学习(RL)，该机制允许AI系统在其整个生命周期中从显着记忆中学习，并且可以使用大量训练任务或项目进行扩展。Chai及其同事开发的生成记忆方法使用编码方法来分离潜在空间。这允许AI系统即使在任务没有明确定义或任务数量未知时也能学习。

“我们的AI系统不会直接存储原始数据，例如视频，音频等，”Chai解释道。“相反，我们使用生成记忆来生成或想象它以前经历过的东西。生成AI系统已被用于创造艺术，音乐等。在我们的研究中，我们使用它们来编码生成体验，以后可以用于强化学习这种方法的灵感来自睡眠和梦境中的生物机制，在这里，我们回想起或想象在我们的长期记忆中得到强化的经验碎片。“

将来，Chai及其同事介绍的新的生成记忆方法可以帮助解决基于神经网络的模型中的灾难性遗忘问题，从而实现AI系统中的终身学习。研究人员现在正在测试他们在基于计算机的策略游戏上的方法，这些游戏通常用于训练和评估AI系统。

“我们正在使用像星际争霸2这样的即时战略游戏来培训和研究我们的AI代理人的终身学习指标，如适应性，稳健性和安全性，”Chai说。“我们的AI代理人在游戏中注入了惊喜(例如地形和单位能力的变化)。”

标签：终身强化学习