人工智能学习技术可以说明大脑中奖赏通路的功能

2020-01-19 17:10:30 编辑：来源：

导读来自DeepMind、大学学院和哈佛大学的一组研究人员发现，将学习技术应用于人工智能系统的经验教训可能有助于解释奖励途径在大脑中是如何工作

来自DeepMind、大学学院和哈佛大学的一组研究人员发现，将学习技术应用于人工智能系统的经验教训可能有助于解释奖励途径在大脑中是如何工作的。在他们发表在《自然》杂志上的论文中，该小组描述了将计算机中的分布强化学习与小鼠大脑中的多巴胺处理进行比较，以及他们从中学到了什么。

先前的研究表明，大脑中产生的多巴胺参与了奖励过程-当好事发生时，它就会产生，它的表达会产生愉悦的感觉。一些研究还表明，大脑中对多巴胺的存在作出反应的神经元都以同样的方式作出反应-一个事件会导致一个人或一只老鼠感觉好或坏。其他研究表明，神经元的反应更多的是一个梯度。在这一新的努力中，研究人员发现了支持后者理论的证据。

分布强化学习是一种基于强化的机器学习。它经常用于设计游戏，如星际争霸II或围棋。它跟踪好的动作和坏的动作，并学会减少坏的动作的数量，提高它的性能越多。但是，这样的系统并不是把所有好的和坏的移动都处理在一起-每个移动都是加权的，因为它是记录的，权重是在作出未来移动选择时使用的计算的一部分。

研究人员指出，人类似乎也使用类似的策略来提高他们的游戏水平。伦敦的研究人员怀疑人工智能系统和大脑进行奖励处理的方式之间的相似之处可能也是相似的。为了找出他们是否正确，他们对老鼠进行了实验。他们将能够记录单个多巴胺神经元反应的装置插入他们的大脑。然后，老鼠被训练来执行一项任务，在这项任务中，他们得到了以期望的方式作出反应的奖励。

小鼠神经元的反应表明，它们的反应并不像先前的理论所预测的那样。相反，他们以不同的方式做出了可靠的反应-这表明，正如研究小组所预测的那样，老鼠所体验的快乐程度更像是一个梯度。

标签：人工智能