无需与世界交互,谷歌新AI模型仅靠“思考”便学会挖钻石
如何让AI在不接触物理世界的情况下安全地学会复杂技能?谷歌DeepMind的Danijar Hafner、Wilson Yan和Timothy Lillicrap等人开发了Dreamer 4。这是一个创新的世界模型,它能让AI智能体完全在内部模拟的“想象”中进行训练,并首次仅靠离线数据就在复杂的《我的世界》游戏中成功挖到钻石。
Dreamer 4的核心是一个高效的世界模,它采用Transformer架构,能将视频画面压缩并预测未来的发展。为了确保长期模拟的准确性,研究团队设计了一种新颖的“shortcut forcing”训练方法,有效避免了预测误差随时间累积。借助这一模型,智能体可以在一个快速且逼真的虚拟世界中,通过强化学习进行数百万次的试错,而无需与真实的游戏环境进行任何交互。这项研究的突破在于,Dreamer 4成为了第一个仅从标准离线数据集中学习,就在《我的世界》中完成“获得钻石”这一复杂长期任务的智能体。其表现不仅远超之前的方法,数据效率更是OpenAI同类离线智能体VPT的100倍。此外,该模型极为高效,可在单个GPU上实现实时交互,甚至能从大量无动作标签的视频中汲取世界知识,这为未来利用海量网络视频训练通用AI代理开辟了道路。
阅读更多:
Hafner, Danijar, et al. “Training Agents Inside of Scalable World Models.” arXiv:2509.24527, arXiv, 29 Sept. 2025. arXiv.org, https://doi.org/10.48550/arXiv.2509.24527
精选评论