世界world任务攻略世界world最新版

2023-01-25 05:24:15 中

报告机器的心脏

作者:陈平、杜维

本文档说明了模拟ROT算法在14个预训练任务中的学习目标，该算法不需要90.1%的平均成功率

模仿培训(IL)是一种很老的行为克隆的两种广泛模式，BC使用受控制的学习策略来最大限度地提高您在监控演示中的可能性

IRL使用在线滚动来计算在优化策略出现之前的潜在奖励功能，即使在没有特定奖励的情况下，该策略也能使演示任务变得强大

纽约大学的研究人员是一种符合标准的高精度观测的新方法

此外，ROT还使用非参数化的路径匹配功能来解决IRL奖励计算，以减少智能发现难题

地址:https://arxiv . org/pdf/2206.1569 . pdftr

作业首页:https://rot robot . github . io

但是，基于大麻的研究仅仅是通过奖励计算和前期培训策略，30是IRL在线学习的灵感来源

为了做到这一点，研究人员制定了一个新的适应评估计划，称为软q滤波。这不需要手动指定培训开始30软q过滤的时间表(与过去的策略编辑解决方案相比)

为了证明ROT研究员在DM Control、OpenAI Robotics和meta-world 20上做了大量的实验他们在xArm执行了14个机器人操作任务

首先，让我们来看看有没有其他箱子里的东西泄漏了

机器人把杯子绑在柱子上

65432 + 4R

机器人真的挂在衣架上

号

方法视图

模拟学习的一个困难是平衡演示文稿分发之外的状态灵活性，BC学习如何通过跟踪演示文稿来学习如何摆脱任何IRL策略

完成此过程分为两个阶段

第一阶段，BC使用专家来启动随机目标学习策略，并且BC预学习策略可以访问和使用IRL目标学习环境；第一阶段:添加有害于符合BC的评估目标

BC似乎是解决方程式的最大难题：在这里T^e代表了专家们所做的，当参数方程是以常数方差的正态分布来表示时，我们可以定义目标为回归问题，包括特定的s^e项

号

在训练中，PI^ BC可以模拟在简报中看到的相互运动

第二步:使用IRL

对于特定的前期培训，为环境策略设置PI^ B^ PI^ ROT的PI^ BC模型研究人员使用n-step DDPG方法来提供持续控制的高模型性能

与规则pi^ BC设置分布偏移相比，30研究人员通过合并PI^ ROT和BC之间的损失来解决此问题RL(导向RL)和离线RL方法

号

软q滤波具有自适应编辑功能，尽管以前的业务是手动设置的，但研究人员提出了一种新的自适应解决方案，它们是专家，在更为有效的策略中，replay buffer d _ e是pi ^ I

号

实验结果

ROT模拟学习活动ROT，在除任务外的所有任务中，ROT模拟基于图像的学习速度都比以前的任务快，如图3所示

ROT比OpenAI Robotics任务的平均速度快8.7倍，元世界任务的运行速度快8.9倍，研究也是ROT最困难的任务

号

ROT研究人员如何在现实世界中完成任务14只评估真实世界1小时在线培训rot 14任务的平均成功率为90.1%。行为克隆(36.1)和抗性IRL (14.6%)均高于1%

0次

65432 + 111

ROT在不同的起点做得很好

65432 + 129

但是ROT也有缺点

65432 + 133

在ROT中，IRL选择方法的重要性。在以下第6个工作中，ROT使用经过预先训练的自适应BC编辑技术(RDC)进行了IRL比较，结果是采用了软q滤波

65432 + 143

新闻

世界world任务攻略世界world最新版

相关文章

最新游戏

超市游戏模拟器3D游戏下载,超市游戏模拟器3D游戏官方安卓版

终极农场空闲模拟器下载安装下载,终极农场空闲模拟器下载安装手机版

射击沙盒手机版下载,射击沙盒游戏手机版

阿科洛科恐怖冒险游戏下载,阿科洛科恐怖冒险游戏中文手机版

超级餐厅达人游戏下载,超级餐厅达人游戏官方版

猜你喜欢

绝世天尊

大秦风云录

英雄血战

盛世明朝

无双霸业

梦塔防

征服之战

封剑神录