“AI教母”李飞飞揭秘“世界模型”：要让AI像人类一样理解三维空间

李飞飞创World Labs推AI”世界模型”，突破3D空间智能。

6月6日消息，被誉为“AI教母”的知名人工智能专家、斯坦福大学教授李飞飞，近日与硅谷顶级风险投资机构a16z的两位合伙人——马丁·卡萨多与埃里克·托伯格展开了一场深度对话。

在这场对话中，李飞飞首次公开分享了她创办的人工智能公司World Labs背后的理念、研究方向与宏大愿景。同时，她还探讨了一个被称为“世界模型”的概念——这些AI系统不仅能理解和推理文字信息，还能理解与推理物理世界（尤其是3D世界）的运作规律。

李飞飞解释道，空间智能是当今AI系统中一个至关重要的组成部分。无论是我们生活的三维物理世界，还是虚拟构建的数字宇宙，空间智能都是AI必须掌握的核心能力。她称World Labs正全力以赴解决这一挑战，因为它有可能重新定义未来的机器人、创意产业，甚至是计算本身。

这场对话从大语言模型（LLM）的局限性谈起，探讨了具身人工智能的未来，涵盖了李飞飞的个人经历以及她对AI深刻的技术思考。通过这次对话，我们不仅了解了AI的现状，还看到了如何创造出能够适应现实世界和虚拟世界的智能系统，给我们带来全新的认知视野。

“AI教母”李飞飞揭秘“世界模型”：要让AI像人类一样理解三维空间

以下为李飞飞最新访谈精华内容：

01 创业心法：为何要为World Labs寻找“完美合伙人”？

首先，李飞飞谈到了自己创办World Labs的初衷，以及寻找理想投资者的过程。

她提到，自己很早就在寻找所谓的“独角兽投资者”。这样的人不仅具备丰富的经验，还愿意与创业者风雨同舟，并提供富有洞察力的建议和资源。

World Labs的目标是研究前所未有的深度技术，虽然李飞飞坚信这些技术将彻底改变世界，但她需要一个既懂计算机科学又精通人工智能的合伙人，同时还要了解市场和产品，并能引领团队进入市场。更重要的是，她需要一个能够随时与她展开知识性对话的伙伴，而卡萨多正是符合这一标准的人选。

卡萨多则表示，李飞飞显然在这个想法上已经深思了很长时间。在开始这个项目之前，李飞飞已经拥有了一个清晰的直觉，明白人工智能如何才能真正“理解”世界。卡萨多回忆道，李飞飞曾提醒他们：“我们缺少一个世界模型。”世界模型指的是一个人工智能系统，能够全面理解三维世界的结构、形态和组成。

李飞飞解释道，当时她已经和许多人讨论过这个问题，不仅仅是计算机科学家、技术专家，还有投资者和潜在的商业伙伴。然而，大部分人并未真正理解“世界模型”的概念。

02 打破语言局限！超越大语言模型，追求“世界模型”

李飞飞曾是将数据引入人工智能领域的先驱者，但即便如此，她依然对数据驱动的人工智能模型所取得的进展感到惊讶。尤其是这些模型能够展现出如此惊人的“涌现行为”，甚至可以被称作“思考机器”，这让她十分惊喜。

当被问到为什么要创办一家基础模型公司，而不是依赖大语言模型来解决所有问题时，李飞飞解释说，她的探索之旅并不是单纯围绕公司或论文展开的，而是在寻找一个根本性的问题。她并不是一时冲动才决定创办公司，而是多年来一直在思考，是否有比语言更重要的东西存在。她认为，虽然语言是一种非常强大的思想和信息表达方式，但它并不是最适合描述我们所生活的三维物理世界的工具。

李飞飞强调，通过观察人类智能的进化，她意识到许多能力超出了语言的范畴。尽管语言非常强大，但它并不能全面表达世界的所有层面，而且语言本身也存在“有损性”，无法完美地捕捉现实世界的复杂性。

她指出，语言是由人类创造的，它并非自然存在的东西，我们周围并没有直接展现出来的“词汇”或“语法”，而整个物理世界、感知世界和视觉世界却是真实存在的。李飞飞还提到，所有动物的进化都离不开感知，正是通过感知，它们最终发展出了“具身智能”。而人类也不仅仅是为了生存、工作和生活，更是通过改造和创造世界来推动文明的发展。

“AI教母”李飞飞揭秘“世界模型”：要让AI像人类一样理解三维空间

正是基于对这一深刻理解的认识，李飞飞决定着手解决上述挑战。虽然她曾作为学者花费多年时间在相关领域进行探索，但她也意识到，现如今正是集结整个行业力量——无论是计算能力、数据资源，还是顶尖人才——的最佳时机，只有这样才能真正将她的理想转化为现实。因此，她最终决定创办World Labs。

03 推动AI跨越语言壁垒，开启具身智能时代？

李飞飞的经历与许多人不同，因为她一直专注于“视觉”领域。因此，她并不需要依赖大语言模型来理解语言的重要性。她特别强调，她并不是在“批评语言”，恰恰相反，她对ChatGPT等基础模型所取得的突破感到非常兴奋。这些突破反而激励他们意识到：打造“世界模型”的时机已经成熟。

李飞飞指出，空间——无论是三维空间、现实世界中的空间，还是“脑海中的空间”——这种空间智能，是人类完成许多语言无法实现的任务的关键。它也是“智能”最核心的组成部分之一。

从最早的动物到人类最伟大的科学发现，空间理解始终扮演着不可替代的角色。例如，DNA的双螺旋结构，它的理解完全依赖于对三维空间的感知，而语言根本无法仅凭推理得出如此复杂的结论。

另一个例子是“巴基球”（Bucky Ball），也就是富勒烯（C60）的碳分子结构，其空间构造极其精妙，完美展示了空间感知和三维建模的力量。

语言是人类大脑进化过程中最晚出现的模块之一，而空间感知系统则早在节肢动物时代就已存在，至今已有五亿年的历史。今天的人工智能如果仅仅学会了语言，它还不能真正称得上“理解世界”。要让AI真正具备“理解世界”的能力，必须构建出类人般的空间模型，只有这样，AI才算真正迈入了“具身智能”的大门。

04 AI“世界模型”如何重塑创意、机器人和虚拟宇宙？

如果“世界模型”真正构建完成了，会有哪些具体的应用场景？对此，李飞飞预计，应用非常广泛。

首先是创造力领域。她解释称，创造本身就是高度视觉化和空间化的，涉及到设计、电影、建筑和工业产品设计等领域。这些领域不仅仅是娱乐产业的一部分，它们也与生产力、制造业和工程息息相关。从本质上讲，所有这些工作都由感知与空间驱动。

其次是机器人领域。李飞飞指出，“机器人”不仅指的是人形机器人或自动驾驶汽车，还包括许多介于两者之间的“具身智能机器”。这些机器必须能够理解并适应其所处的三维空间环境，并在此环境中进行训练，最终能与人类协作完成任务，而这一切都离不开空间智能。

对于李飞飞而言，最令人兴奋的部分是：在人类整个文明的发展历程中，我们一直生活在同一个三维物理世界——地球。虽然有人曾登上过月球，但那仅限于少数人，并且月球依旧是人类生活之外的另一个世界。然而，今天，凭借新技术，特别是生成模型和重建模型相结合，李飞飞认为我们正迈入一个能够创造“无限宇宙”的新时代。

她表示，这些应用可以分为几个主要类别——有的面向机器人，有的面向创意领域，另外还有些则与社交、旅行或讲故事相关。随着“世界模型”的不断进步，人们将能够在“多重宇宙”中生活。此时，想象力的边界几乎是无限的。

李飞飞承认，事实上，进化花费了很长时间才赋予我们对三维空间的感知，三维空间的理解并不是一个简单的挑战。她回忆起几年前与她六岁孩子的一次对话——当时她问孩子：“为什么树没有眼睛？”孩子的回答是：“树不会移动，它不需要眼睛。”这也揭示了一个核心问题：所有动物的生命基础都离不开运动和互动，而这种运动和互动恰恰是赋予我们感知力和空间智能的关键所在。

她强调，空间智能正是让我们能够理解并操作三维世界的核心能力。这一能力将重新定义我们工作和生活的方式，打破过去二维思维的框架，推动人类进入一个全新的时代。

05 3D vs 2D：为何AI需要“3D眼睛”？

李飞飞指出，在讨论空间智能时，必须认识到物理和交互发生在三维空间中，而不仅仅是二维平面。举个例子，如果你是一个人类，看到一段二维视频，你的大脑能自动将它重建为三维空间。然而，如果你给机器人一个只有二维输出的模型，并让它进行空间操作（例如计算距离或抓取物体），它就会遇到困难。

李飞飞分享了一个与空间感知密切相关的个人故事。五年前，她因角膜受伤而失去了几个月的立体视觉，这意味着她只能用一只眼睛看东西。这段经历对她的研究产生了深刻的影响。她表示：“尽管我生活在一个没有立体视觉的环境中，但我的经验让我即使只用一只眼睛，也能‘知道’3D世界是什么样子。”

李飞飞回忆道，失去立体视觉的一大影响就是，她变得害怕开车。虽然她了解自己的车和路面情况，但在没有立体视觉的情况下，估计自己与路边停车的车之间的距离变得异常困难。她也不得不放慢车速，以避免刮到其他车辆。李飞飞总结道：“这次亲身经历让我深刻体会到立体视觉的重要性。我不推荐这样做，但是，如果你能试着将车停在一个地方，再用一只眼睛开另一辆车，你会明白，这正是你通过大语言模型体验到的世界。”

李飞飞最后提到，虽然大公司已经在大模型领域取得了显著进展，推动了相关研究，但3D计算机视觉依然是一个相对较新的研究领域。尽管如此，这个领域并不完全是新兴的，因为在计算机视觉领域，很多相关的研究早就开始了。但要让机器真正理解和重建3D空间，还有很长的路要走。