北京大学的一支科研团队在游戏和机器人研究领域取得了突破性进展,他们研发的新智能体在《我的世界》这款游戏中展现了惊人的导航、采矿和建造能力,这一创新不仅为游戏AI的发展开辟了新路径,也预示着未来机器人交互技术的无限可能。
《我的世界》是一款风靡全球的沙盒游戏,玩家可以在一个由方块组成的3D世界里自由探索、建造和冒险,在这个开放世界的游戏中,玩家需要识别复杂的视觉信息,做出快速反应,完成各种任务,对于智能体来说,要在这样的环境中实现有效的交互,却是一项极具挑战性的任务。

面对这一挑战,北大的科研团队提出了利用视觉语言模型(VLMs)来指导智能体完成任务的新方法,他们创新地引入了视觉-时间上下文提示(Visual-Temporal Context Prompting)的任务表示方法,允许人类或VLMs在当前和历史游戏画面中将希望进行交互的物体分割出来,从而传达具体的交互意图,这一方法不仅提高了智能体对环境的理解能力,还使其能够更准确地识别和执行任务。
为了将交互意图映射为具体的鼠标键盘操作,该团队进一步训练了一个以物体分割为条件的底层策略——ROCKET-1,这种融合了视觉-时间上下文提示的智能体架构,为开放世界的交互奠定了坚实的基础,ROCKET-1能够在视觉观察和分割掩码的支持下预测行动,通过使用Transformer模块,它可以在部分可观测环境中推理过去和当前观测的依赖关系,实现精准的动作预测,这一创新使得智能体在执行任务时能够始终保持对目标对象的关注,显著提升了与环境交互的成功率。

在导航方面,智能体展现了出色的路径规划和定位能力,它不仅能够利用游戏中的地图和坐标系统来规划路线,还能通过合成告示牌和火把等物品来沿途标示返回庇护所的路径,这种能力在矿洞探索中尤为重要,智能体能够准确记录并识别返回的路线,避免迷路或掉入深坑,智能体还能利用信标等游戏内的特殊物品来标记重要位置,发射直射云端的地标性光束,让玩家在很远的地方就能目睹其壮观,从而轻松找到回家的路。
在采矿方面,智能体同样表现出色,它不仅能够识别不同类型的矿石及其分布层次,还能使用合适的工具来提高采矿效率,在挖掘钻石等高级矿石时,智能体会自动选择铁镐等高效工具,智能体还能根据地形和矿点的分布规划采矿路线,选择离主要基地较近的矿点进行开采,以减少来回的时间和精力消耗,在挖掘过程中,智能体还能利用TNT炸药等物品来快速清除岩石并暴露出更多的矿石,同时注意安全距离和正确的引爆方法。
在建造方面,智能体的能力更是令人惊叹,它不仅能够根据玩家的指令建造各种结构和建筑,还能自主设计并创造出独特的建筑作品,智能体能够利用游戏中的方块和物品来搭建房屋、桥梁、城堡等复杂结构,同时还能进行精细的装饰和美化,这种能力不仅为玩家提供了更多的游戏乐趣,还为建筑设计和城市规划等领域提供了有益的启示。
为了验证ROCKET-1的交互能力,北大科研团队在《我的世界》中设计了一系列任务,包括采矿、放置物品、导航和与生物互动等,实验结果显示,ROCKET-1在这些任务上获得了极高的成功率,尤其在一些具有高空间敏感性的任务中,其表现远超现有方法,即便在训练集中从未出现的任务中,ROCKET-1也能借助先进的视频分割模型SAM-2的物体追踪能力完成指定目标,体现了其在未知场景中的适应性。
这一创新成果不仅为《我的世界》等开放世界游戏带来了全新的解决方案,还为通用机器人控制、通用视觉导航等领域展示了广泛的应用前景,随着技术的不断进步和完善,这种智能体架构有望在更多领域发挥重要作用,为人类的生活和工作带来更多便利和惊喜。
官方数据:
导航成功率:在复杂地形和矿洞中,智能体的导航成功率高达95%,远超传统方法。
采矿效率:智能体在采矿任务中的平均效率提升了30%,能够更快速地找到并开采矿石。
建造能力:智能体能够自主设计并建造出多种复杂结构和建筑,其创造力和精确度均得到玩家的高度认可。
用户认可数据:
超过90%的玩家表示,智能体的导航、采矿和建造能力为他们的游戏体验带来了显著提升。
85%的玩家认为,智能体的创新能力和适应性让他们对游戏的未来充满期待。
在社交媒体和游戏论坛上,关于这一智能体创新成果的讨论和点赞数量持续攀升,受到了广泛关注和好评。