2026年4月,AI领域突然迎来一场密集的“世界模型”爆发。短短几天内,NVIDIA、World Labs(李飞飞团队)、腾讯混元和阿里巴巴几乎同时推出或升级前沿3D世界生成与渲染技术。从单张图片生成可自由漫游的持久3D世界,到浏览器端流畅渲染亿级高斯点,再到支持物理模拟的实时交互环境——AI正在从“生成图片和视频”快速迈向“构建可探索、可交互的数字宇宙”。NVIDIA Lyra 2.0:可探索的生成式3D世界NVIDIA空间智能实验室推出的Lyra 2.0是开源生成式3D世界模型的里程碑。它能从单张图像或文本提示出发,构建持久、可漫游的长时序3D场景,彻底解决传统扩散模型的“空间遗忘”问题。

Lyra 2.0的核心在于每帧维护3D一致性记忆,生成的环境支持自由导航、长距离一致性渲染,甚至可直接导入Isaac Sim用于机器人物理训练。相比早期版本,Lyra 2.0在规模化生成和探索性上实现跃升,已开源模型权重与代码,成为研究者和开发者快速上手3D世界的利器。
https://huggingface.co/nvidia/Lyra-2.0
腾讯HY-World 2.0:多模态3D世界全栈框架腾讯混元团队发布的HY-World 2.0是多模态3D世界模型的集大成者,支持文本、单视图/多视图图像、视频等多种输入,输出可编辑的3D Gaussian Splatting场景或网格。

与Genie 3、Cosmos、HY-World 1.5不同的是,它直接生成可编辑可持久化的3D资产,可以直接导入到Blender、Unity、UE、Isaac Sim等游戏引擎中 支持第一人称导航和第三人称角色模式,可以在AI生成的街道、建筑和景观中自由探索,具备基于物理的碰撞效果 与英伟达的Lyra 2.0实现路径不同,HY-World 2.0采用四阶段流水线一次性生成完整3D世界,多了从真实世界视频/图像重建的能力
https://3d.hunyuan.tencent.com/sceneTo3Dhttps://github.com/Tencent-Hunyuan/HY-World-2.0
阿里HappyOyster:物理感知的开放式交互世界模型阿里巴巴最新推出的HappyOyster(Happy Oyster)将世界模型推向“可玩”维度。它能根据文本提示实时生成具备物理模拟的交互式3D环境和视频,支持自然语言“导演模式”——用户可随时干预剧情、角色动作与世界演化。

不同于纯生成工具,HappyOyster强调开放式世界模拟,适用于游戏开发、影视预演和实时叙事。其物理一致性与交互性让生成的3D世界不再是静态展品,而是可“玩”的数字沙盒,为内容创作与元宇宙应用打开新大门。
SparkJS:3D Gaussian Splatting网页渲染新标杆生成3D世界只是第一步,如何在浏览器中流畅渲染才是关键。World Labs(李飞飞教授联合创立)推出的SparkJS(Spark 2.0)正是为此而生。它是一款专为THREE.js设计的先进3D Gaussian Splatting渲染器,支持WebGL2,在手机、桌面甚至WebXR设备上均可高效运行。

Spark 2.0引入流式LoD(细节层次)系统和.RAD文件格式,实现海量3DGS场景的渐进式加载与内存固定占用。它让3D世界模型的输出不再局限于本地渲染,而是能直接在网页上实现无限规模、实时交互的体验,已被广泛用于搭配Lyra、HY-World等模型的演示与应用落地。
https://sparkjs.dev/
https://github.com/shi3z/sparkjs-skill
写在最后:四大项目共绘AI 3D未来
- Lyra 2.0 : 侧重持久探索性
- SparkJS: 解决网页渲染难题
- HY-World 2.0: 提供多模态全栈能力
- HappyOyster :带物理交互与开放式演化
它们共同标志着AI已从2D图像/视频生成迈入3D空间智能时代。开源趋势(NVIDIA、腾讯、World Labs均已开源核心组件)进一步降低了门槛,开发者可快速组合这些工具,构建下一代沉浸式应用。无论是机器人训练、虚拟制作,还是元宇宙内容创作,这些技术都将重塑数字世界的生产方式。未来,生成一个“能跑能跳的吉卜力小镇”可能只需一句话——AI世界模型的竞赛,才刚刚开始。
