一种在现实世界中快速教授机器人新行为的算法
训练机器人完成现实世界中的任务可能是一个非常耗时的过程,其中包括构建一个快速高效的模拟器,在其上进行大量试验,然后将这些试验中学到的行为转移到现实世界中。然而,在许多情况下,由于环境或任务的不可预测的变化,在模拟中获得的性能与在现实世界中获得的性能不匹配。
加州大学伯克利分校(UCBerkeley)的研究人员最近开发了DayDreamer,这是一种可用于训练机器人更有效地完成现实世界任务的工具。他们的方法在arXiv上预先发表的一篇论文中进行了介绍,该方法基于世界的学习模型,使机器人能够预测其运动和动作的结果,从而减少了在现实世界中进行大量试错训练的需要。
进行这项研究的研究人员之一DanijarHafner告诉TechXplore:“我们希望构建能够直接在现实世界中持续学习的机器人,而无需创建模拟环境。”“我们之前只学习过电子游戏的世界模型,所以看到同样的算法也能让机器人在现实世界中快速学习,真是太令人兴奋了!”
使用他们的方法,研究人员能够高效、快速地教机器人在现实世界中执行特定行为。例如,他们训练了一只机器狗在短短一小时内从背部滚下来、站起来走路。
训练完成后,团队开始推动机器人,发现在10分钟内,它也能够承受推力或快速回滚。该团队还在机械臂上测试了他们的工具,训练他们捡起物体并将它们放置在特定的位置,而不告诉他们物体最初的位置。
“我们看到机器人适应了光照条件的变化,例如一天中随着太阳移动的阴影,”哈夫纳说。“除了在现实世界中快速、持续地学习之外,没有任何变化的相同算法在四种不同的机器人和任务中运行良好。因此,我们认为世界模型和在线适应将在机器人技术的发展中发挥重要作用。”
基于强化学习的计算模型可以随着时间的推移教授机器人的行为,方法是奖励他们想要的行为,例如良好的对象抓取策略或以合适的速度移动。通常,这些模型是通过漫长的试错过程进行训练的,使用可以加速的模拟和现实世界中的实验。
另一方面,由Hafner及其同事开发的算法Dreamer根据其过去的“经验”构建了一个世界模型。然后可以使用这个世界模型来教机器人基于“想象的”交互的新行为。这显着减少了在现实环境中进行试验的需要,从而大大加快了训练过程。
“直接预测未来的感官输入将太慢且太昂贵,尤其是在涉及像相机图像这样的大输入时,”哈夫纳说。“世界模型首先学习将其在每个时间步长的感官输入(电机角度、加速度计测量值、相机图像等)编码为一个紧凑的表示。给定一个表示和一个电机命令,然后它学会预测结果表示下一个时间步骤。”
Dreamer制作的世界模型允许机器人“想象”未来的表征,而不是处理原始的感官输入。这反过来又允许模型使用单个图形处理单元(GPU)并行计划数千个动作序列。这些“想象的”序列有助于快速提高机器人在特定任务上的表现。
“强化学习中潜在特征的使用已经在表征学习的背景下进行了广泛的研究;其想法是可以创建大型感官输入(相机图像、深度扫描)的紧凑表征,从而减小模型大小并可能减少所需的培训时间,”另一位参与该研究的研究员AlejandroEscontrela告诉TechXplore。“然而,表征学习技术仍然需要机器人与现实世界或模拟器长时间交互来学习任务。Dreamer允许机器人通过使用其学习的表征作为准确且超高效的方式从想象的交互中学习”模拟器。这使机器人能够在学习的世界模型中进行大量的训练。”
在训练机器人的同时,Dreamer不断收集新的经验并利用它们来增强其世界模型,从而改善机器人的行为。他们的方法使研究人员能够在一小时内训练一个四足机器人行走并适应特定的环境刺激,而无需使用以前从未实现过的模拟器。
“在未来,我们认为这项技术将使用户能够直接在现实世界中教授机器人许多新技能,从而无需为每项任务设计模拟器,”哈夫纳说。“它还为构建适应硬件故障的机器人打开了大门,例如尽管其中一条腿的电机坏了,但仍能行走。”
在最初的测试中,Hafner、Escontrela、PhilipWu和他们的同事也使用他们的方法训练机器人捡起物体并将它们放置在特定的位置。这项由仓库和装配线上的工人每天执行的任务对于机器人来说可能很难完成,尤其是当它们预期拾取的物体的位置未知时。
Dreamer遵循简单的物理机器人在线学习流程,无需模拟器。与现实世界的交互被添加到存储所有过去经验的回放缓冲区中。世界模型随机学习从重放缓冲区中获取的序列。该行为使用“演员评论家”算法从世界模型的预测中学习。当前行为用于与世界交互以收集新体验,从而关闭循环。信用:吴等人。
“与这项任务相关的另一个困难是,在机器人真正抓住某些东西之前,我们无法向它提供中间反馈或奖励,因此在没有中间指导的情况下,机器人有很多探索空间,”哈夫纳说。“在10小时的完全自主操作中,使用Dreamer训练的机器人接近了人类远程操作员的性能。这一结果表明,世界模型是仓库和装配线自动化站的一种有前途的方法。”
在他们的实验中,研究人员成功地使用Dreamer算法训练了四个形态不同的机器人完成各种任务。使用传统的强化学习训练这些机器人通常需要大量的手动调整,在没有额外调整的情况下在任务中表现良好。
“根据我们的结果,我们预计会有更多的机器人团队开始使用和改进Dreamer,以解决更具挑战性的机器人问题,”Hafner说。“拥有开箱即用的强化学习算法可以让团队有更多时间专注于构建机器人硬件并指定他们想要使用世界模型自动化的任务。”
该算法可以很容易地应用于机器人,其代码很快就会开源。这意味着其他团队很快将能够使用它来使用世界模型训练自己的机器人。
Hafner、Escontrela、Wu和他们的同事现在想进行新的实验,为四足机器人配备摄像头,这样它不仅可以学会走路,还可以识别附近的物体。这应该允许机器人处理更复杂的任务,例如避开障碍物、识别环境中感兴趣的对象或在人类用户旁边行走。
“机器人技术的一个公开挑战是用户如何直观地为机器人指定任务,”Hafner补充道。“在我们的工作中,我们将机器人优化为Python函数的奖励信号实现了,但最终,通过直接告诉机器人何时做对或做错来根据人类偏好教机器人会很好。这可以通过按下按钮来实现给予奖励,甚至让机器人了解人类语言。”
到目前为止,该团队仅使用他们的算法来训练机器人完成特定任务,这些任务在实验开始时就已明确定义。然而,在未来,他们还希望训练机器人在不处理明确定义的任务的情况下探索他们的环境。
“一个有希望的方向是训练机器人在没有任务的情况下通过人为的好奇心探索周围环境,然后更快地适应用户指定的任务,”哈夫纳补充道。