世界world任务攻略世界world最新版
报告机器的心脏
作者:陈平、杜维
本文档说明了模拟ROT算法在14个预训练任务中的学习目标,该算法不需要90.1%的平均成功率
模仿培训(IL)是一种很老的行为克隆的两种广泛模式,BC使用受控制的学习策略来最大限度地提高您在监控演示中的可能性
IRL使用在线滚动来计算在优化策略出现之前的潜在奖励功能,即使在没有特定奖励的情况下,该策略也能使演示任务变得强大
纽约大学的研究人员是一种符合标准的高精度观测的新方法
此外,ROT还使用非参数化的路径匹配功能来解决IRL奖励计算,以减少智能发现难题
地址:https://arxiv . org/pdf/2206.1569 . pdftr
作业首页:https://rot robot . github . io
但是,基于大麻的研究仅仅是通过奖励计算和前期培训策略,30是IRL在线学习的灵感来源
为了做到这一点,研究人员制定了一个新的适应评估计划,称为软q滤波。这不需要手动指定培训开始30软q过滤的时间表(与过去的策略编辑解决方案相比)
为了证明ROT研究员在DM Control、OpenAI Robotics和meta-world 20上做了大量的实验他们在xArm执行了14个机器人操作任务
首先,让我们来看看有没有其他箱子里的东西泄漏了
机器人把杯子绑在柱子上
65432 + 4R
机器人真的挂在衣架上
号
方法视图
模拟学习的一个困难是平衡演示文稿分发之外的状态灵活性,BC学习如何通过跟踪演示文稿来学习如何摆脱任何IRL策略
完成此过程分为两个阶段
第一阶段,BC使用专家来启动随机目标学习策略,并且BC预学习策略可以访问和使用IRL目标学习环境;第一阶段:添加有害于符合BC的评估目标
BC似乎是解决方程式的最大难题:在这里T^e代表了专家们所做的,当参数方程是以常数方差的正态分布来表示时,我们可以定义目标为回归问题,包括特定的s^e项
号
在训练中,PI^ BC可以模拟在简报中看到的相互运动
第二步:使用IRL
对于特定的前期培训,为环境策略设置PI^ B^ PI^ ROT的PI^ BC模型研究人员使用n-step DDPG方法来提供持续控制的高模型性能
与规则pi^ BC设置分布偏移相比,30研究人员通过合并PI^ ROT和BC之间的损失来解决此问题RL(导向RL)和离线RL方法
号
软q滤波具有自适应编辑功能,尽管以前的业务是手动设置的,但研究人员提出了一种新的自适应解决方案,它们是专家,在更为有效的策略中,replay buffer d _ e是pi ^ I
号
实验结果
ROT模拟学习活动ROT,在除任务外的所有任务中,ROT模拟基于图像的学习速度都比以前的任务快,如图3所示
ROT比OpenAI Robotics任务的平均速度快8.7倍,元世界任务的运行速度快8.9倍,研究也是ROT最困难的任务
号
ROT研究人员如何在现实世界中完成任务14只评估真实世界1小时在线培训rot 14任务的平均成功率为90.1%。行为克隆(36.1)和抗性IRL (14.6%)均高于1%
0次
65432 + 111
ROT在不同的起点做得很好
65432 + 129
但是ROT也有缺点
65432 + 133
在ROT中,IRL选择方法的重要性。在以下第6个工作中,ROT使用经过预先训练的自适应BC编辑技术(RDC)进行了IRL比较,结果是采用了软q滤波
65432 + 143