该系统在无人驾驶汽车上路前对其进行模拟训练

2020-04-04 10:59:36 编辑：来源：

导读麻省理工学院发明了一种模拟系统来训练无人驾驶汽车，创造了一个具有无限转向可能性的真实世界，帮助汽车在巡航到真正的街道之前学会导航一系列更糟糕的场景。自动驾驶车辆的控制系统或“控制器”在很大程度上依赖于来自人类驾驶员的驾驶轨迹的真实世界数据集。从这些数据中，他们学习如何在各种情况下模拟安全转向控制。但不幸的是，来自危险的“边缘案例”的真实数据，如几乎崩溃或被迫离开道路或进入其他车道，都是真实的

麻省理工学院发明了一种模拟系统来训练无人驾驶汽车，创造了一个具有无限转向可能性的真实世界，帮助汽车在巡航到真正的街道之前学会导航一系列更糟糕的场景。

自动驾驶车辆的控制系统或“控制器”在很大程度上依赖于来自人类驾驶员的驾驶轨迹的真实世界数据集。从这些数据中，他们学习如何在各种情况下模拟安全转向控制。但不幸的是，来自危险的“边缘案例”的真实数据，如几乎崩溃或被迫离开道路或进入其他车道，都是真实的。

一些计算机程序，称为“模拟引擎”，旨在通过绘制详细的虚拟道路来模拟这些情况，以帮助训练控制器恢复。但是，从模拟中学到的控制从来没有被证明是在一辆全面的车辆上转移到现实中的。

麻省理工学院的研究人员用他们的真实感模拟器来解决这个问题，称为虚拟图像合成和自治转换(VISTA)。它只使用一个小数据集，由驾驶在道路上的人捕获，从车辆在现实世界中可以接受的轨迹合成几乎无限多的新观点。控制器是奖励它旅行的距离而不崩溃，所以它必须自己学习如何安全到达目的地。在这样做的过程中，车辆学会安全地驾驶它遇到的任何情况，包括在车道之间转弯或从近车中恢复控制。

在测试中，在VISTA模拟器中训练的控制器能够安全地部署到一辆全面的无人驾驶汽车上，并在以前看不见的街道上导航。在将汽车定位在模拟各种近碰撞情况的越野方向时，控制器还能够在几秒钟内成功地将汽车恢复到安全的驾驶轨迹。一篇描述该系统的论文已发表在IEEE机器人和自动化信函中，并将在即将于5月举行的ICRA会议上发表。

第一作者亚历山大·阿米尼(AlexanderAmini)说：“在这些边缘情况下，很难收集到人类在这条路上没有经历过的数据。计算机科学和人工智能实验室(CSA IL)的D.名学生。 “然而，在我们的模拟中，控制系统可以经历这些情况，学会从这些情况中恢复过来，并在部署到现实世界中的车辆时保持强劲。

这项工作是与丰田研究所合作完成的。参加论文的有：CSAIL博士后Igor Gilitschenski；CSAIL和电气工程和计算机科学系的所有本科生Jacob Phillips、Julia Moseyko和Rohan Banerjee；航空和航天副教授Sertac Karaman；CSAIL主任Daniela Rus以及电气工程和计算机科学Andrew和Erna Viterbi教授。

数据驱动的模拟

从历史上看，建造用于训练和测试自动驾驶汽车的模拟引擎在很大程度上是一项手工任务。公司和大学经常雇用艺术家和工程师团队来描绘虚拟环境，在树上有准确的道路标记、车道，甚至详细的树叶。一些发动机还可以结合汽车与环境相互作用的物理，基于复杂的数学模型。

但是，由于在复杂的现实世界环境中有许多不同的东西需要考虑，所以实际上不可能将所有东西都集成到模拟器中。由于这个原因，控制器在模拟中学到的东西和它们在现实世界中的操作方式之间通常是不匹配的。

相反，麻省理工学院的研究人员创造了一个他们称之为“数据驱动”的模拟引擎，它从真实数据中综合出与道路外观一致的新轨迹，以及场景中所有物体的距离和运动。

他们首先从一个开车沿着几条路行驶的人那里收集视频数据，并将其输入发动机。对于每个帧，引擎将每个像素投影成一种三维点云。然后，他们在那个世界里放置了一辆虚拟车辆。当车辆发出转向命令时，发动机通过点云合成一个新的轨迹，基于转向曲线和车辆的方向和速度。

然后，引擎使用新的轨迹来渲染一个真实的场景。为此，它使用一个卷积神经网络-通常用于图像处理任务-来估计深度地图，其中包含与控制器观点的对象距离有关的信息。然后，它结合深度图与一种技术，估计相机的方向在三维场景。这一切都有助于确定车辆的位置和相对距离的一切虚拟模拟器。

基于这些信息，它重新调整原始像素，从车辆的新观点重新创建世界的三维表示。它还跟踪像素的运动，以捕捉汽车和人的运动，以及其他运动物体，在场景中。 Rus说：“这相当于为车辆提供无限数量的可能轨迹。” 因为当我们收集物理数据时，我们从汽车将遵循的特定轨迹中得到数据。但我们可以修改这个轨迹来涵盖所有可能的驾驶方式和环境。这真的很强大。“

从零开始强化学习

传统上，研究人员一直在通过遵循人类定义的驾驶规则或试图模仿人类司机来训练自主车辆。但是，研究人员使他们的控制器在一个“端到端”的框架下从零开始学习，这意味着它只作为原始传感器数据的输入-比如道路的视觉观察-并且从这些数据中预测输出时的转向命令。

“我们基本上说，”这是一个环境。你想做什么就做什么。阿米尼说：“别撞在车上，呆在车道里。”

这就需要“强化学习”(RL)，这是一种试错机器学习技术，在汽车出错时提供反馈信号。在研究人员的模拟引擎中，控制器从不知道如何驾驶、车道标记是什么，甚至其他车辆看起来是什么开始，所以它开始执行随机转向角。只有当它崩溃时，它才会得到反馈信号。此时，它被传送到一个新的模拟位置，并必须执行一组更好的转向角度，以避免再次崩溃。超过10到15个小时的训练，它使用这些稀疏反馈信号来学习旅行更大和更大的距离而不崩溃。

在模拟成功驾驶10000公里后，作者将学习控制器应用于现实世界中的全尺寸自主车辆上。研究人员说，这是第一次在模拟中使用端到端强化学习训练的控制器成功地部署到一辆全面的自动驾驶汽车上。 ”“这让我们很惊讶。阿米尼说：“不仅控制器以前从未在真正的汽车上使用过，而且它以前也从未见过道路，对人类如何驾驶也一无所知。”

迫使控制器在所有类型的驾驶场景中运行，使它能够从迷失的位置重新获得控制-例如半离路或进入另一条车道-并在几秒钟内转向正确的车道。阿米尼说：“其他最先进的控制器都不幸地失败了，因为他们在训练中从来没有看到过这样的数据。”

接下来，研究人员希望从一个单一的驾驶轨迹模拟所有类型的道路条件，如夜间和白天，以及晴天和雨天。他们还希望模拟与道路上其他车辆更复杂的相互作用。 “如果其他汽车开始在车辆前面移动和跳跃呢？” 拉斯说。 “这些是我们想要开始测试的复杂的、真实的交互。”