一种向强化学习者灌输好奇心的新方法

2019-06-10 11:08:01 编辑：来源：

导读几个真实世界的任务都有稀疏的奖励，这对强化学习(RL)算法的发展提出了挑战。该问题的解决方案是允许代理人自主地为自己创造奖励，使得奖励

几个真实世界的任务都有稀疏的奖励，这对强化学习(RL)算法的发展提出了挑战。该问题的解决方案是允许代理人自主地为自己创造奖励，使得奖励更加密集并且更适合于学习。

例如，受到动物探索环境的奇怪行为的启发，RL算法对新事物的观察可以奖励奖励。这个奖励总结了真实的任务奖励，然后允许RL算法从综合奖励中学习。

DeepMind，谷歌大脑和苏黎世联邦理工学院的研究人员最近设计了一种新的好奇心方法，使用情景记忆来形成这种新奇的奖励。通过比较存储在存储器中的当前观察和观察来确定该奖励。

“我们工作的主要目的是调查新的基于记忆的强化学习(RL)代理人的”好奇心“，即使在完全没有奖励的情况下我们也意味着探索环境，”Tim Lillicrap at Google Brain的DeepMind和Nikolay Savinov在一封电子邮件中告诉TechXplore。“研究界已经以各种方式对好奇心进行了探讨，但我们觉得有些想法可以从进一步的探索中受益。”

最近这篇论文探讨的关键思想是基于Savinov先前进行的一项研究，该研究提出了一种受哺乳动物导航启发的新记忆体系结构。此体系结构允许代理仅使用可视演练重复通过环境的路由。研究人员开发的新方法更进一步，试图通过好奇心实现良好的探索。

“在表演时，代理人将观察表征的实例存储在其情景记忆中，”Lillicrap和Savinov说。“为了确定当前的观察是否新颖，将其与记忆中的观察结果进行比较。如果没有发现任何相似之处，则当前的观察被认为是新颖的并且代理人会得到奖励，否则会得到负面的奖励。这会鼓励代理人探索陌生的领域，类似于好奇。“

研究人员发现，比较成对的观察结果可能很棘手，因为在现实环境中检查精确匹配最终是毫无意义的。这是因为在现实世界中，代理人很少会两次观察同一件事。

“相反，我们训练了一个神经网络来预测代理人是否可以通过采取比固定阈值更少的动作来从记忆中的那些人那里获得当前的观察结果;比如，五个动作，”Lillicrap和Savinov解释说。“这五项行动中的观察结果被认为是相似的，而需要采取更多行动才能进行过渡的观察结果被视为不同。”

Lillicrap，Savinov和他们的同事在VizDoom和DMLab中测试了他们的方法，这两个视觉丰富的3D环境。在VizDoom中，代理人学会了成功导航到远处的目标，至少比最先进的好奇心方法ICM快两倍。在DMLab中，该算法很好地推广到新的，程序上生成的游戏级别，在具有非常稀疏奖励的测试迷宫上比ICM至少两倍地达到其期望目标。

基于惊喜的方法(ICM)持久地用类似激光的科幻小说标记墙壁而不是探索迷宫。这种行为类似于前面描述的通道切换：即使标记的结果在理论上是可预测的，但这并不容易，并且显然需要深入了解物理学知识，这对于一般代理来说并不是直接的。图片来源：Savinov等。

Lillicrap和Savinov说：“我们注意到一种最受欢迎的方法有一个有趣的缺点，可以让代理人充满好奇心。” “我们发现这种方法，基于由缓慢变化的模型计算的惊喜，该模型试图预测接下来会发生什么，可以导致代理的即时满足响应：而不是解决手头的任务，它将利用导致不可预测后果的行动，以获得即时奖励。“

这种奇特的事件，也被称为“沙发 - 土豆”问题，需要代理人找到通过利用导致不可预测后果的行动立即满足自己的方法。例如，当给定电视遥控器时，代理可能除了改变频道之外什么都不做，即使其原始任务完全不同，例如在迷宫中搜索目标。

“这种缺点可以通过情景记忆和合理的观察相似度来缓解，这是我们的贡献，”Lillicrap和Savinov说。“这为更智能的探索开辟了道路。”

由Lillicrap，Savinov和他们的同事设计的新好奇心方法可以帮助复制RL算法中的好奇心技能，使他们能够自主地为自己创造奖励。在未来，研究人员希望使用情景记忆不仅可以用于奖励，还可以用于计划行动。

“例如，可以使用从内存中检索到的内容来考虑下一步的去向吗?” 莉莉拉普和萨维诺夫说。“这是一项重大的科学挑战：如果解决了问题，代理商将能够迅速将探索策略适应新环境，从而使学习速度更快。”

标签：灌输好奇心