阅读 130

DeepMind&OpenAI推出3D版安全强化学习模型,「跳崖」行为减至10%

行早发自凹非寺

  量子位公众号 QbitAI

  DeepMind&OpenAI 这回联手展示了一手安全强化学习模型的好活。

  他们把二维的安全 RL 模型 ReQueST 推向了更实用的 3D 场景中。

  要知道 ReQueST 原来只是应用在导航任务,2D 赛车等二维任务中,从人类给出的安全轨迹中学习如何避免智能体“自残”。

  原来 ReQueST 的二维导航任务(避开红色区域)和赛车任务

  但是在实际的 3D 环境中问题更为复杂,例如执行任务的机器人需要在工作中避障,自动驾驶的汽车需要避免开到沟里去。

  但是在实际的 3D 环境中问题更为复杂,例如执行任务的机器人需要在工作中避障,自动驾驶的汽车需要避免开到沟里去。

  那么问题来了,用于 2D 任务的 ReQueST 在复杂的 3D 环境中还能行吗?在 3D 环境中人类给出的安全轨迹数据的质和量还能满足训练的需要吗?

  针对这两个问题,DeepMind 和 OpenAI 拿出了更复杂的动力模型和融入了人类反馈的奖励模型,成功将 ReQueST 迁移到 3D 环境中,向应用推进了一步。

  并且安全性也有所提升,实验中智能体不安全行为数量减至 baseline 的十分之一。

  怎么能直观地感受一下?我们到模拟 3D 环境中看一看。

  在上图的场景中,房间左上侧是一个悬崖,智能体需要在房间两侧指示灯绿色消失之前,尽量吃到三个苹果。

  其中一个苹果还需要踩按钮开门才能吃到。

  在展示的视频中,智能体踩住按钮,打开闸门,成功吃到被关住的苹果,一套操作行云流水。

  我们来看看它是怎么做到的。

  3D 版安全强化学习模型如何训练

  在 ReQueST 的基础上,DeepMind 和 OpenAI 需要解决的问题就是适用于 3D 场景的动力模型奖励模型

  我们先从整体的流程上看一下这两者的角色。

  如下图所示,是新模型对于吃苹果任务的训练流程。

  浅蓝色框代表的是动力模型参与的步骤。从上面一排开始,由人提供一些安全的轨迹,避开红色的危险区域。

  根据这些训练出动力模型,然后用它生成一些随机的轨迹。

  接着到下面一排,让人类根据这些随机的轨迹,以奖励草图的方式提供反馈,再用这些奖励草图,训练初始的奖励模型,并依此不断地优化两者。

  接下来我们分别介绍这两个模型。

  这次 DeepMind 和 OpenAI 使用的动力模型使用 LSTM 依据动作序列和过去的图像观测预测未来的图像观测。

  模型和 ReQueST 中的类似,就是编码器网络和反卷积解码器网络更大了点,并使用真实图像观测和预测值的均方误差损失进行训练。

  最重要的是,这种损失建立在对每个步骤的未来多个步骤的预测上,从而使动力模型在长时间的部署中也能保持连贯性。

  得到的训练曲线如下图所示,横轴代表步数,纵轴代表损失,不同颜色的曲线代表不同量级的轨迹数量:

  此外,在奖励模型部分,DeepMind 和 OpenAI 训练了一个 220 万参数的 11 层残差卷积网络。

  输入为 96x72 的 RGB 图像,输出一个标量奖励预测,损失也是用均方误差。

  在这个网络里,人类反馈的奖励草图也起到了很重要的作用。

  奖励草图简单来说就是人工给奖励值打分。

  如下图所示,图中上半部分就是人给出的草图,当下半部分的预测观察中有苹果的时候,奖励值就是1,如果苹果逐渐从视野中淡出,奖励就变成-1。

  以此来调整奖励模型网络。

  3D 版安全强化学习模型效果如何

  接下来我们来看看新模型和其他模型以及 Baseline 的对比效果如何。

  结果如下图所示,不同的难度对应的是场景大小的不同。

  下图左边是智能体从悬崖摔下去的次数,右边是吃掉苹果的数量。

  需要注意的是,图例中的 ReQueST(ours)代表训练集中包含了人类提供错误路径的训练结果。

  而 ReQueST(safe-only)代表训练集中只使用安全路径的训练结果。

  另外,ReQueST(sparse)是不用奖励草图训练的结果。

  从中可以看出,虽然 Model-free 这条 baseline 吃掉了所有的苹果,但是牺牲了很多安全性。

  而 ReQueST 的智能体平均能吃掉三个苹果中的两个,并且跌落悬崖的数量只是 baseline 的十分之一,性能比较出众。

  从奖励模型的区别上来看,奖励草图训练的 ReQueST 和稀疏标签训练的 ReQueST 效果相差很大。

  稀疏标签训练的 ReQueST 平均一个苹果也吃不到。

  看来,DeepMind 和 OpenAI 抓的这两点确有改善之处。

  [1]https://www.arxiv-vanity.com/papers/2201.08102/

  [2]https://deepmind.com/blog/article/learning-human-objectives-by-evaluating-hypothetical-behaviours

来自: 网易科技


文章分类
百科问答
版权声明:本站是系统测试站点,无实际运营。本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 XXXXXXo@163.com 举报,一经查实,本站将立刻删除。
相关推荐