一张图就能生成“3D 游戏”,蚂蚁灵波开源可交互的世界模型 LingBot-World

AI 新资讯4天前发布 汪淼
791 0 0
熊猫办公

1 月 29 日消息,蚂蚁集团旗下具身智能公司 —— 蚂蚁灵波科技今日宣布开源世界模型 LingBot-World

LingBot-World 是一个专为交互式世界模型设计的开源框架。其核心 LingBot-World-Base 致力于提供高保真、可控制且逻辑一致的模拟环境。该模型由一个可扩展数据引擎(Scalable Data Engine)驱动,通过从大规模游戏环境中学习物理规律与因果关系,实现了与生成世界的实时交互。

视频质量动态程度长时序一致性交互能力等关键指标上,LingBot-World 均展现出业界领先的性能。

一张图就能生成“3D 游戏”,蚂蚁灵波开源可交互的世界模型 LingBot-World width=”1080″ height=”166″>

视频生成领域普遍存在“长时漂移”问题,即生成时间一长,便可能出现物体变形、细节塌陷、主体消失或场景结构崩坏等现象。针对这一难题,LingBot-World 通过多阶段训练及并行化加速策略,实现了近 10 分钟的连续稳定无损生成,为长序列、多步骤的复杂任务训练提供支撑。

在官方的压力测试中,即便镜头移开长达 60 秒后返回,场景中的核心物体依然能保持其结构与外观的一致性。

一张图就能生成“3D 游戏”,蚂蚁灵波开源可交互的世界模型 LingBot-World

▲ 高动态环境下,镜头长时间移开后返回,车辆形态外观仍保持一致

一张图就能生成“3D 游戏”,蚂蚁灵波开源可交互的世界模型 LingBot-World data-advance=”W3siVHlwZSI6IndlYnBhIiwiVXJsIjoiaHR0cHM6Ly9pbWcuaXRob21lLmNvbS9uZXdzdXBsb2FkZmlsZXMvMjAyNi8xLzM4NTFjNjlhLWVjNmYtNGEwNi04OGRhLWE3NjI2NmU1YTA3Ny53ZWJwIn1d” alt=”镜头长时间移开后返回,房屋仍存在且结构一致” class=”lazy” title=”一张图就能生成“3D 游戏”,蚂蚁灵波开源可交互的世界模型 LingBot-World” data-original=”https://img.ithome.com/newsuploadfiles/2026/1/fd2b6ff7-8850-4ca8-9db9-017929155d5b.gif” width=”568″ height=”320″>

▲ 镜头长时间移开后返回,房屋仍存在且结构一致

LingBot-World 告别了随机的“幻觉”式生成。它支持精细化的、由动作驱动的生成(action-conditioned generation),能够响应用户指令,渲染出符合物理真实感的动态场景。

此外,LingBot-World 可实现约 16 FPS 的生成吞吐,并将端到端交互延迟控制在 1 秒以内。这意味着,用户可以通过键盘或鼠标实时控制角色与相机视角,画面能够根据指令即时反馈。

模型还支持通过文本指令触发环境变化与世界事件,例如调整天气、改变画面风格,并在保持场景几何关系相对一致的前提下完成动态生成。

一张图就能生成“3D 游戏”,蚂蚁灵波开源可交互的世界模型 LingBot-World width=”795″ height=”438″>

为解决世界模型训练中高质量交互数据匮乏的问题,LingBot-World 采用了一种创新的混合数据采集策略:

  • 一方面,通过清洗大规模网络视频以覆盖多样化的场景;

  • 另一方面,结合游戏采集与虚幻引擎(UE)合成管线,从渲染层直接提取无 UI 干扰的纯净画面,并同步记录下操作指令与相机位姿。

得益于此,LingBot-World 具备了更好的 Zero-shot 泛化能力。仅需输入一张真实的城市街景照片或游戏截图,模型即可生成对应的可交互视频流,无需针对单一场景进行额外训练,降低了在不同场景中的部署与使用成本。

一张图就能生成“3D 游戏”,蚂蚁灵波开源可交互的世界模型 LingBot-World width=”797″ height=”446″>

目前,LingBot-World 模型权重及推理代码已全面开源,IT之家附开源地址如下:

https://technology.robbyant.com/lingbot-world

© 版权声明

相关文章