坦牛手游网

新闻

栏目

世界world任务攻略世界world最新版

2023-01-25 05:24:15

报告机器的心脏

作者:陈平、杜维

本文档说明了模拟ROT算法在14个预训练任务中的学习目标,该算法不需要90.1%的平均成功率

模仿培训(IL)是一种很老的行为克隆的两种广泛模式,BC使用受控制的学习策略来最大限度地提高您在监控演示中的可能性

IRL使用在线滚动来计算在优化策略出现之前的潜在奖励功能,即使在没有特定奖励的情况下,该策略也能使演示任务变得强大

纽约大学的研究人员是一种符合标准的高精度观测的新方法

此外,ROT还使用非参数化的路径匹配功能来解决IRL奖励计算,以减少智能发现难题

地址:https://arxiv . org/pdf/2206.1569 . pdftr

作业首页:https://rot robot . github . io

但是,基于大麻的研究仅仅是通过奖励计算和前期培训策略,30是IRL在线学习的灵感来源

为了做到这一点,研究人员制定了一个新的适应评估计划,称为软q滤波。这不需要手动指定培训开始30软q过滤的时间表(与过去的策略编辑解决方案相比)

为了证明ROT研究员在DM Control、OpenAI Robotics和meta-world 20上做了大量的实验他们在xArm执行了14个机器人操作任务

首先,让我们来看看有没有其他箱子里的东西泄漏了

机器人把杯子绑在柱子上

65432 + 4R

机器人真的挂在衣架上

方法视图

模拟学习的一个困难是平衡演示文稿分发之外的状态灵活性,BC学习如何通过跟踪演示文稿来学习如何摆脱任何IRL策略

完成此过程分为两个阶段

第一阶段,BC使用专家来启动随机目标学习策略,并且BC预学习策略可以访问和使用IRL目标学习环境;第一阶段:添加有害于符合BC的评估目标

BC似乎是解决方程式的最大难题:在这里T^e代表了专家们所做的,当参数方程是以常数方差的正态分布来表示时,我们可以定义目标为回归问题,包括特定的s^e项

在训练中,PI^ BC可以模拟在简报中看到的相互运动

第二步:使用IRL

对于特定的前期培训,为环境策略设置PI^ B^ PI^ ROT的PI^ BC模型研究人员使用n-step DDPG方法来提供持续控制的高模型性能

与规则pi^ BC设置分布偏移相比,30研究人员通过合并PI^ ROT和BC之间的损失来解决此问题RL(导向RL)和离线RL方法

软q滤波具有自适应编辑功能,尽管以前的业务是手动设置的,但研究人员提出了一种新的自适应解决方案,它们是专家,在更为有效的策略中,replay buffer d _ e是pi ^ I

实验结果

ROT模拟学习活动ROT,在除任务外的所有任务中,ROT模拟基于图像的学习速度都比以前的任务快,如图3所示

ROT比OpenAI Robotics任务的平均速度快8.7倍,元世界任务的运行速度快8.9倍,研究也是ROT最困难的任务

ROT研究人员如何在现实世界中完成任务14只评估真实世界1小时在线培训rot 14任务的平均成功率为90.1%。行为克隆(36.1)和抗性IRL (14.6%)均高于1%

0次

65432 + 111

ROT在不同的起点做得很好

65432 + 129

但是ROT也有缺点

65432 + 133

在ROT中,IRL选择方法的重要性。在以下第6个工作中,ROT使用经过预先训练的自适应BC编辑技术(RDC)进行了IRL比较,结果是采用了软q滤波

65432 + 143

相关文章

最新游戏

猜你喜欢

  • 世界

  • 最新版

  • 任务攻略

  • world

  • 手游开服

  • 新游开测

  • 绝世天尊

    角色扮演 | 306.05MB | 下载1528次

    新服:灭运

  • 大秦风云录

    角色扮演 | 224MB | 下载1188次

    新服:天外

  • 英雄血战

    角色扮演 | 96MB | 下载1735次

    新服:力转乾坤

  • 盛世明朝

    策略经营 | 114.87MB | 下载1966次

    新服:志安远村