游戏界迎来了一场技术革命,由南京大学周志华团队研发的WHALE(World models with beHavior-conditioning and retrAcing-rollout LEarning)框架正式亮相,为手游世界模型带来了前所未有的泛化能力和不确定性估计的突破,这一创新成果不仅为手游开发者提供了强大的技术支持,更为玩家带来了更加真实、丰富的游戏体验。
WHALE框架的问世,源于对人类智能的深刻洞察,人类能够在脑海中构想一个想象中的世界,预测不同动作可能带来的不同结果,受此启发,世界模型被设计用于抽象化现实世界的动态,并提供“…会怎样”的预测,在手游领域,这意味着具身智能体可以与世界模型交互,生成模拟数据,用于反事实预测、离线策略评估、离线强化学习等下游任务,极大地降低了现实世界中成本高昂的探索成本。

世界模型在手游决策应用中面临着两大挑战:泛化和不确定性估计,为了应对这些挑战,周志华团队引入了WHALE框架,该框架由两种关键技术组成:行为-条件(behavior-conditioning)和retracing-rollout。
行为-条件技术旨在增强世界模型的泛化能力,在确定策略分布差异是泛化误差的主要来源的基础上,该技术通过嵌入行为信息到世界模型中,使模型能够主动识别策略的行为模式,并适应由策略引起的分布偏移,这一创新使得模型能够更准确地预测不同策略下的游戏结果,从而提高了决策的准确性和效率。

而retracing-rollout技术则是一种简单而有效的不确定性估计方法,它利用了具身控制中动作空间的语义结构,通过引入retracing-action,生成不同的回溯-轨迹预测结果,从而更准确、更高效地估计基于Transformer的世界模型的不确定性,这一技术的引入,使得模型能够在面对未知或不确定的游戏情境时,做出更加稳健的决策。
为了验证WHALE框架的有效性,周志华团队提出了Whale-ST和Whale-X两个世界模型,Whale-ST是一个基于时空Transformer的可扩展具身世界模型,旨在为现实世界的视觉控制任务提供忠实的长远想象,在模拟任务上的实验结果表明,Whale-ST在价值估计准确率和视频生成保真度方面均优于现有的世界模型学习方法,基于retracing-rollout技术的Whale-ST还能有效捕获模型预测误差,并使用想象的经验增强离线策略优化。
而Whale-X则是一个具有414M参数的世界模型,该模型在Open X-Embodiment数据集中的970k个现实世界演示上进行了训练,通过在完全没见过的环境和机器人中的一些演示进行微调,Whale-X在视觉、动作和任务视角中展示了强大的OOD(分布外)通用性,通过扩大预训练数据集或模型参数,Whale-X在预训练和微调阶段都表现出了令人印象深刻的可扩展性。
WHALE框架的推出,无疑为手游领域带来了革命性的变化,它不仅提高了游戏世界的真实感和互动性,还为开发者提供了更加高效、准确的决策支持,随着WHALE框架的广泛应用,我们可以期待看到更多具有创新性和挑战性的手游作品问世。
据官方数据显示,自WHALE框架推出以来,已经吸引了众多手游开发者的关注和采用,许多游戏在引入WHALE框架后,不仅在游戏体验上得到了显著提升,还在玩家口碑和市场表现上取得了不俗的成绩,这一成果得到了广大玩家的认可和喜爱,他们纷纷表示,WHALE框架的引入让游戏世界更加真实、有趣,同时也提高了游戏的挑战性和可玩性。
WHALE来了,南大周志华团队做出的更强泛化的世界模型,正在引领手游领域走向一个全新的高度,我们有理由相信,在不久的将来,随着WHALE框架的不断完善和应用,手游世界将会变得更加精彩纷呈,为玩家带来前所未有的游戏体验。