模型移动9关攻略

2023-01-25 08:51:02 中

报告机器的心脏

编辑:陈平，周

在我的世界里，演员不是人，我认为AI玩的所有游戏

“我的世界”是世界上最著名的公开世界游戏孩子们可以看10分钟的训练视频来学习如何在游戏中找到稀有的钻石

今天OpenAI研究小组宣布他们开发了一种智能体可以玩我的世界

此外，OpenAI教育模式还可以学习如何使用OpenAI模型、按钮和鼠标移动来控制人机界面，在此模式下有20，000名熟练的人工操作人员可以执行任务

地址:https://cdn . open ai . com/VPT/paper . pdftr

让我们来看看他们是如何建造一个简单的木头掩体的

个石柱

号正在搜寻村庄

65432 + 4R

VPT方法

网际网路上有太多的公开视讯可供我们学习，让我们学习如何播放游戏，但是这些视讯只提供记录，而不是滑鼠移动和按钮的确切顺序

由于OpenAI需要创建比大型语言模型更为通用的大型基本模型(如电子游戏)，因此缺少运动标签带来了新的挑战

本研究提出了一种半监督模拟学习方法:一项需要进行视频预学习(VPT)的研究

本研究首先从游戏厂商那里收集了一个小数据集，不仅可以预测游戏视频，还可以预测按钮和鼠标的移动，还可以预测视频中的每个步骤

下图概述了VPT方法

号

VPT零样本水果

这项研究在我的世界里验证了一种类似真实世界的行为和动作方式，因为它是世界上最受欢迎的电子游戏之一(2)它是开放的

模型克隆(VPT使用基本模型)在70，000小时内IDM，在我的世界里，要完成在线视频培训的标记和学习任务几乎是不可能的

盒装产品每一个步骤的移动次数与时间

盒零样品制作过程

它还可以执行其他复杂的游戏技能，如游泳、打猎、食物和其他特殊技能

游泳者

号战机

0次

设置行为

基本模型具有广泛的行为能力，可用于执行各种任务，这些任务通常基于较小的特定数据集合并新信息或专注于特定任务

VPT如何将基本模型设置为以下数据集:OpenAI允许人类玩家在我的世界的最新版本中玩10个，我希望这些基本模型能够更快地执行游戏功能

65432 + 111

用来做石柱的东西

65432 + 129

资料扩充

本研究中最重要的假设是，要比相同的小数据集更有效地使用标记数据(作为VPT管道的一部分)培训IDM

基本模型训练资料的精细调整效果:如您所见，随着基本模型资料的增加，我们只能看到最大规模的石头工具制造

65432 + 133

我们通过改进学习

当指定的奖励函数足够好时，增强的学习可能是一种更强大的方法来触发更高的性能，因为VPT模型与RL的工作方式更好，因为它可以模拟人的随机行为

做钻石锚需要复杂的子任务来奖励和简化这个任务

65432 + 143

65432 + 155号

65432 + 161号

RL建立VPT模型，制造出钻石吊臂

研究发现，与此相比，随机引导(标准)方法几乎没有获得任何回报，只需调整VPT模型即可

65432 + 171号

VPT可以通过在Internet上观看大量视频来学习VPT，仅学习语言之前的行为，相对于以前表示的视频建模或比较方法而言，VPT是可能的

此外，这项研究的开放原始码资料、我的世界所需要的环境、模型程式码以及模型重量30，可协助这些开放原始码未来的VPT工作

原始连接

HTTPS:// openai.com/博客/ vpt

新闻

模型移动9关攻略

相关文章

最新游戏

超市游戏模拟器3D游戏下载,超市游戏模拟器3D游戏官方安卓版

终极农场空闲模拟器下载安装下载,终极农场空闲模拟器下载安装手机版

射击沙盒手机版下载,射击沙盒游戏手机版

阿科洛科恐怖冒险游戏下载,阿科洛科恐怖冒险游戏中文手机版

超级餐厅达人游戏下载,超级餐厅达人游戏官方版

猜你喜欢

绝世天尊

大秦风云录

英雄血战

盛世明朝

无双霸业

梦塔防

征服之战

封剑神录