Facebook研究人员已经开发了一个通用的AI框架

2020-07-31 08:42:42 编辑：来源：国际品牌资讯

导读 Facebook研究人员已经开发了一个通用的AI框架，称为递归基于信念的学习(ReBeL)，他们说单挑，无限制的德州扑克游戏在单挑，无限制德州扑克

Facebook研究人员已经开发了一个通用的AI框架，称为递归基于信念的学习(ReBeL)，他们说单挑，无限制的德州扑克游戏在单挑，无限制德州扑克中的表现要好于人类，同时使用的领域知识也比以前任何扑克AI都要少。他们断言，ReBeL是朝着开发用于多主体交互的通用技术迈出的一步，换句话说，就是可以在大规模多主体设置中部署的通用算法。从拍卖，谈判和网络安全到自动驾驶汽车和卡车，潜在的应用范围广泛。

将强化学习与AI模型训练和测试时间的搜索相结合，带来了许多进步。强化学习是代理商通过最大化奖励来学习实现目标的过程，而搜索是从开始到目标状态的导航过程。例如，DeepMind的AlphaZero运用强化学习和搜索功能，在棋类，将棋和围棋等棋盘游戏中获得最先进的表现。但是，将组合方法应用于诸如扑克(或剪刀石头布)之类的信息不完善的游戏时，性能会受到影响，因为它会做出许多在这些情况下不成立的假设。任何给定动作的价值取决于其被选择的可能性，并且更普遍地取决于整个游戏策略。

Facebook研究人员建议ReBeL提供修复程序。ReBeL建立在工作的基础上，其中“博弈状态”的概念得到了扩展，以包括代理商根据常识和其他代理商的政策对他们可能处于何种状态的信念。ReBeL通过自我强化学习为州训练了两个AI模型-一个价值网络和一个政策网络。它在自播放期间使用两种模型进行搜索。结果是一种简单，灵活的算法，研究人员声称该算法能够在大规模的两人不完全信息游戏中击败顶尖的人类玩家。

在较高的级别上，ReBeL在公众信仰状态而非世界状态(即游戏状态)上运行。公众信仰国家(PBS)将“国家价值”的概念推广到不完全信息的游戏中，例如扑克。PBS是在有限的可能动作和状态序列(也称为历史记录)上的常见知识概率分布。(概率分布是一种特殊的函数，可提供发生不同可能结果的可能性。)在完美信息游戏中，PBS可以提取到历史记录，而在两人零和游戏中，PBS可以有效地提取到世界状态。扑克中的PBS是玩家可以做出的一系列决定，以及特定手牌，底池和筹码时他们的结果。

ReBeL在每个游戏开始时都会生成一个与原始游戏相同的“子游戏”，只是它起源于最初的PBS。该算法通过运行“均衡查找”算法的迭代并使用训练后的值网络在每次迭代中近似值来赢得胜利。通过强化学习，发现值并将其添加为价值网络的训练示例，并且子游戏中的策略可选地添加为策略网络的示例。然后重复该过程，使PBS成为新的子游戏根，直到准确性达到某个阈值。

在实验中，研究人员对ReBeL进行了单挑德州扑克无限

标签： Facebook