模型移动9关攻略
报告机器的心脏
编辑:陈平,周
在我的世界里,演员不是人,我认为AI玩的所有游戏
“我的世界”是世界上最著名的公开世界游戏孩子们可以看10分钟的训练视频来学习如何在游戏中找到稀有的钻石
今天OpenAI研究小组宣布他们开发了一种智能体可以玩我的世界
此外,OpenAI教育模式还可以学习如何使用OpenAI模型、按钮和鼠标移动来控制人机界面,在此模式下有20,000名熟练的人工操作人员可以执行任务
地址:https://cdn . open ai . com/VPT/paper . pdftr
让我们来看看他们是如何建造一个简单的木头掩体的
个石柱
号正在搜寻村庄
65432 + 4R
VPT方法
网际网路上有太多的公开视讯可供我们学习,让我们学习如何播放游戏,但是这些视讯只提供记录,而不是滑鼠移动和按钮的确切顺序
由于OpenAI需要创建比大型语言模型更为通用的大型基本模型(如电子游戏),因此缺少运动标签带来了新的挑战
本研究提出了一种半监督模拟学习方法:一项需要进行视频预学习(VPT)的研究
本研究首先从游戏厂商那里收集了一个小数据集,不仅可以预测游戏视频,还可以预测按钮和鼠标的移动,还可以预测视频中的每个步骤
下图概述了VPT方法
号
VPT零样本水果
这项研究在我的世界里验证了一种类似真实世界的行为和动作方式,因为它是世界上最受欢迎的电子游戏之一(2)它是开放的
模型克隆(VPT使用基本模型)在70,000小时内IDM,在我的世界里,要完成在线视频培训的标记和学习任务几乎是不可能的
盒装产品每一个步骤的移动次数与时间
盒零样品制作过程
它还可以执行其他复杂的游戏技能,如游泳、打猎、食物和其他特殊技能
游泳者
号战机
0次
设置行为
基本模型具有广泛的行为能力,可用于执行各种任务,这些任务通常基于较小的特定数据集合并新信息或专注于特定任务
VPT如何将基本模型设置为以下数据集:OpenAI允许人类玩家在我的世界的最新版本中玩10个,我希望这些基本模型能够更快地执行游戏功能
65432 + 111
用来做石柱的东西
65432 + 129
资料扩充
本研究中最重要的假设是,要比相同的小数据集更有效地使用标记数据(作为VPT管道的一部分)培训IDM
基本模型训练资料的精细调整效果:如您所见,随着基本模型资料的增加,我们只能看到最大规模的石头工具制造
65432 + 133
我们通过改进学习
当指定的奖励函数足够好时,增强的学习可能是一种更强大的方法来触发更高的性能,因为VPT模型与RL的工作方式更好,因为它可以模拟人的随机行为
做钻石锚需要复杂的子任务来奖励和简化这个任务
65432 + 143
65432 + 155号
65432 + 161号
RL建立VPT模型,制造出钻石吊臂
研究发现,与此相比,随机引导(标准)方法几乎没有获得任何回报,只需调整VPT模型即可
65432 + 171号
VPT可以通过在Internet上观看大量视频来学习VPT,仅学习语言之前的行为,相对于以前表示的视频建模或比较方法而言,VPT是可能的
此外,这项研究的开放原始码资料、我的世界所需要的环境、模型程式码以及模型重量30,可协助这些开放原始码未来的VPT工作
原始连接
HTTPS:// openai.com/博客/ vpt