从 GenieRedux 到 Genie 3:中间差了什么
两个项目的定位
GenieRedux 是 INSAIT 研究所的开源项目,发了 CVPR 2025。代码开源,数据集开源,能在本地跑。
Genie 3 是 DeepMind 的商业项目,只有技术报告,没有代码,没有数据集。
一个是学术界能复现的 baseline,一个是工业界的天花板。中间差多远?
分辨率的鸿沟
GenieRedux 输出 64x64 像素。你没看错,64x64。
Genie 3 输出 720p,也就是 1280x720。
像素数差 200 倍。
为什么差这么多?不是 INSAIT 不想做高分辨率,是做不起。
高分辨率意味着更大的模型。每帧的 token 数量按像素的平方增长。64x64 压缩成 8x8 的 token 网格,720p 压缩后 token 数量是前者的几十倍。
更大的模型需要更多的显存、更长的训练时间、更多的数据。这些都是要花钱的。
DeepMind 有预算,学术界没有。
一致性时长
GenieRedux 能维持几秒的场景一致性。时间再长,画面就开始"漂移",之前生成的东西慢慢变样。
Genie 3 声称能维持几分钟。我没机会验证超过 60 秒的情况(产品限制了),但 60 秒内确实没看到明显漂移。
这个差距来自两方面:
一是模型容量。更大的模型能记住更多上下文。
二是训练目标。DeepMind 可能专门针对长距离一致性设计了 loss function。学术论文一般不会花这么多精力调这种细节。
泛化能力
GenieRedux 只能在训练过的游戏类型上工作。你拿一个 NES 风格的游戏训练,它只能生成类似 NES 的画面。给它一个"火星表面探索"的 prompt,它做不到。
Genie 3 号称能生成任意描述的环境。从"废弃工厂"到"火山口"到"龙的巢穴",文字描述什么它就生成什么。
这个能力来自训练数据的多样性。GenieRedux 用的是 RetroAct 数据集,974 个复古游戏。Genie 3 用的是"互联网规模的视频数据",具体多少不知道,但肯定是百万级别的小时数。
数据规模差三个数量级以上。
动作空间
GenieRedux 支持简单的方向键输入。上下左右,四个动作。
Genie 3 也是类似的,WASD 加鼠标视角控制。
这方面两者差距不大。都是很有限的动作空间。
复杂的交互,比如抓取物体、开门、和 NPC 对话,两个都做不到。这是世界模型普遍的短板,不是某一家的问题。
推理速度
GenieRedux 在单卡 GPU 上推理速度不快。论文里没给具体数字,我跑了一下,生成一帧要几百毫秒。达不到实时。
Genie 3 跑在 Google 的 TPU 集群上,能做到 24fps 实时生成。
这个差距主要来自工程优化和硬件投入。
学术代码通常不做太多推理优化。能跑通就行,速度是其次的。
工业产品要上线服务用户,推理速度是硬指标。Google 有专门团队做模型加速、量化、分布式推理。
能不能追上
老实说,学术界很难追上 Genie 3 的水平。
不是智力差距,是资源差距。
训练一个 720p、分钟级一致性的世界模型,需要的算力是天文数字。Google 有 TPU pod,学术组没有。
用开源数据集能达到的上限就是 GenieRedux 这个水平。想往上走,需要自己造数据或者付费买数据。这都是钱。
对研究者的价值
GenieRedux 的价值不在于它的效果,而在于它告诉你这东西怎么做。
Video Tokenizer 怎么训练?论文里写了,代码里有。
Dynamics Model 用什么架构?MaskGIT 风格的 Transformer,代码能跑。
AutoExplore Agent 怎么收集数据?不确定性驱动探索,代码也有。
这些模块化的思路是通用的。你可以在这个基础上改进单个组件,发自己的论文。
想要工业级效果,去 Google 工作。想做研究出论文,GenieRedux 够用了。
什么时候差距会缩小
开源大模型的经验表明:工业界领先几年,学术界慢慢追上来。
GPT-3 发布的时候,学术界离它很远。三年后 LLaMA 出来了,差距大大缩小。
世界模型可能也会走类似的路。Meta 或者哪个大厂如果决定开源一个强力的世界模型,局面会不一样。
但目前没看到这个迹象。DeepMind 不开源,OpenAI 的 Sora 也没开源。大家都在等对方先动。
个人研究者能做什么
如果你想入门世界模型研究:
从 GenieRedux 代码开始,跑通整个训练流程,理解每个组件的作用。
尝试改进单个组件。比如换一个更好的 tokenizer,或者改进探索策略。
在特定垂直领域做到比通用模型更好。比如专门做某类游戏的世界模型,数据更干净,效果可能比 Genie 3 在这个子领域更好。
不要试图在通用性上和 Google 竞争。资源不对等的战斗打不赢。
找到自己的生态位,在局部取胜。









