“AI教母”李飞飞揭秘“世界模型”:要让AI像人类一样理解三维空间

AI 新资讯4小时前发布 AI
846 0 0
李飞飞创World Labs推AI”世界模型”,突破3D空间智能。

“AI教母”李飞飞揭秘“世界模型”:要让AI像人类一样理解三维空间

6月6日消息,被誉为“AI教母”的知名人工智能专家、斯坦福大学教授李飞飞,近日与硅谷顶级风险投资机构a16z的两位合伙人——马丁·卡萨多与埃里克·托伯格展开了一场深度对话。

在这场对话中,李飞飞首次公开分享了她创办的人工智能公司World Labs背后的理念、研究方向与宏大愿景。同时,她还探讨了一个被称为“世界模型”的概念——这些AI系统不仅能理解和推理文字信息,还能理解与推理物理世界(尤其是3D世界)的运作规律。

李飞飞解释道,空间智能是当今AI系统中一个至关重要的组成部分。无论是我们生活的三维物理世界,还是虚拟构建的数字宇宙,空间智能都是AI必须掌握的核心能力。她称World Labs正全力以赴解决这一挑战,因为它有可能重新定义未来的机器人、创意产业,甚至是计算本身。

这场对话从大语言模型(LLM)的局限性谈起,探讨了具身人工智能的未来,涵盖了李飞飞的个人经历以及她对AI深刻的技术思考。通过这次对话,我们不仅了解了AI的现状,还看到了如何创造出能够适应现实世界和虚拟世界的智能系统,给我们带来全新的认知视野。

“AI教母”李飞飞揭秘“世界模型”:要让AI像人类一样理解三维空间

以下为李飞飞最新访谈精华内容:

01 创业心法:为何要为World Labs寻找“完美合伙人”?

首先,李飞飞谈到了自己创办World Labs的初衷,以及寻找理想投资者的过程。

她提到,自己很早就在寻找所谓的“独角兽投资者”。这样的人不仅具备丰富的经验,还愿意与创业者风雨同舟,并提供富有洞察力的建议和资源。

World Labs的目标是研究前所未有的深度技术,虽然李飞飞坚信这些技术将彻底改变世界,但她需要一个既懂计算机科学又精通人工智能的合伙人,同时还要了解市场和产品,并能引领团队进入市场。更重要的是,她需要一个能够随时与她展开知识性对话的伙伴,而卡萨多正是符合这一标准的人选。

卡萨多则表示,李飞飞显然在这个想法上已经深思了很长时间。在开始这个项目之前,李飞飞已经拥有了一个清晰的直觉,明白人工智能如何才能真正“理解”世界。卡萨多回忆道,李飞飞曾提醒他们:“我们缺少一个世界模型。”世界模型指的是一个人工智能系统,能够全面理解三维世界的结构、形态和组成。

李飞飞解释道,当时她已经和许多人讨论过这个问题,不仅仅是计算机科学家、技术专家,还有投资者和潜在的商业伙伴。然而,大部分人并未真正理解“世界模型”的概念。

02 打破语言局限!超越大语言模型,追求“世界模型”

李飞飞曾是将数据引入人工智能领域的先驱者,但即便如此,她依然对数据驱动的人工智能模型所取得的进展感到惊讶。尤其是这些模型能够展现出如此惊人的“涌现行为”,甚至可以被称作“思考机器”,这让她十分惊喜。

当被问到为什么要创办一家基础模型公司,而不是依赖大语言模型来解决所有问题时,李飞飞解释说,她的探索之旅并不是单纯围绕公司或论文展开的,而是在寻找一个根本性的问题。她并不是一时冲动才决定创办公司,而是多年来一直在思考,是否有比语言更重要的东西存在。她认为,虽然语言是一种非常强大的思想和信息表达方式,但它并不是最适合描述我们所生活的三维物理世界的工具。

李飞飞强调,通过观察人类智能的进化,她意识到许多能力超出了语言的范畴。尽管语言非常强大,但它并不能全面表达世界的所有层面,而且语言本身也存在“有损性”,无法完美地捕捉现实世界的复杂性。

她指出,语言是由人类创造的,它并非自然存在的东西,我们周围并没有直接展现出来的“词汇”或“语法”,而整个物理世界、感知世界和视觉世界却是真实存在的。李飞飞还提到,所有动物的进化都离不开感知,正是通过感知,它们最终发展出了“具身智能”。而人类也不仅仅是为了生存、工作和生活,更是通过改造和创造世界来推动文明的发展。

“AI教母”李飞飞揭秘“世界模型”:要让AI像人类一样理解三维空间

正是基于对这一深刻理解的认识,李飞飞决定着手解决上述挑战。虽然她曾作为学者花费多年时间在相关领域进行探索,但她也意识到,现如今正是集结整个行业力量——无论是计算能力、数据资源,还是顶尖人才——的最佳时机,只有这样才能真正将她的理想转化为现实。因此,她最终决定创办World Labs。

03 推动AI跨越语言壁垒,开启具身智能时代?

李飞飞的经历与许多人不同,因为她一直专注于“视觉”领域。因此,她并不需要依赖大语言模型来理解语言的重要性。她特别强调,她并不是在“批评语言”,恰恰相反,她对ChatGPT等基础模型所取得的突破感到非常兴奋。这些突破反而激励他们意识到:打造“世界模型”的时机已经成熟。

李飞飞指出,空间——无论是三维空间、现实世界中的空间,还是“脑海中的空间”——这种空间智能,是人类完成许多语言无法实现的任务的关键。它也是“智能”最核心的组成部分之一。

从最早的动物到人类最伟大的科学发现,空间理解始终扮演着不可替代的角色。例如,DNA的双螺旋结构,它的理解完全依赖于对三维空间的感知,而语言根本无法仅凭推理得出如此复杂的结论。

另一个例子是“巴基球”(Bucky Ball),也就是富勒烯(C60)的碳分子结构,其空间构造极其精妙,完美展示了空间感知和三维建模的力量。

语言是人类大脑进化过程中最晚出现的模块之一,而空间感知系统则早在节肢动物时代就已存在,至今已有五亿年的历史。今天的人工智能如果仅仅学会了语言,它还不能真正称得上“理解世界”。要让AI真正具备“理解世界”的能力,必须构建出类人般的空间模型,只有这样,AI才算真正迈入了“具身智能”的大门。

04 AI“世界模型”如何重塑创意、机器人和虚拟宇宙?

如果“世界模型”真正构建完成了,会有哪些具体的应用场景?对此,李飞飞预计,应用非常广泛。

首先是创造力领域。她解释称,创造本身就是高度视觉化和空间化的,涉及到设计、电影、建筑和工业产品设计等领域。这些领域不仅仅是娱乐产业的一部分,它们也与生产力、制造业和工程息息相关。从本质上讲,所有这些工作都由感知与空间驱动。

其次是机器人领域。李飞飞指出,“机器人”不仅指的是人形机器人或自动驾驶汽车,还包括许多介于两者之间的“具身智能机器”。这些机器必须能够理解并适应其所处的三维空间环境,并在此环境中进行训练,最终能与人类协作完成任务,而这一切都离不开空间智能。

对于李飞飞而言,最令人兴奋的部分是:在人类整个文明的发展历程中,我们一直生活在同一个三维物理世界——地球。虽然有人曾登上过月球,但那仅限于少数人,并且月球依旧是人类生活之外的另一个世界。然而,今天,凭借新技术,特别是生成模型和重建模型相结合,李飞飞认为我们正迈入一个能够创造“无限宇宙”的新时代。

她表示,这些应用可以分为几个主要类别——有的面向机器人,有的面向创意领域,另外还有些则与社交、旅行或讲故事相关。随着“世界模型”的不断进步,人们将能够在“多重宇宙”中生活。此时,想象力的边界几乎是无限的。

李飞飞承认,事实上,进化花费了很长时间才赋予我们对三维空间的感知,三维空间的理解并不是一个简单的挑战。她回忆起几年前与她六岁孩子的一次对话——当时她问孩子:“为什么树没有眼睛?”孩子的回答是:“树不会移动,它不需要眼睛。”这也揭示了一个核心问题:所有动物的生命基础都离不开运动和互动,而这种运动和互动恰恰是赋予我们感知力和空间智能的关键所在。

她强调,空间智能正是让我们能够理解并操作三维世界的核心能力。这一能力将重新定义我们工作和生活的方式,打破过去二维思维的框架,推动人类进入一个全新的时代。

05 3D vs 2D:为何AI需要“3D眼睛”?

李飞飞指出,在讨论空间智能时,必须认识到物理和交互发生在三维空间中,而不仅仅是二维平面。举个例子,如果你是一个人类,看到一段二维视频,你的大脑能自动将它重建为三维空间。然而,如果你给机器人一个只有二维输出的模型,并让它进行空间操作(例如计算距离或抓取物体),它就会遇到困难。

李飞飞分享了一个与空间感知密切相关的个人故事。五年前,她因角膜受伤而失去了几个月的立体视觉,这意味着她只能用一只眼睛看东西。这段经历对她的研究产生了深刻的影响。她表示:“尽管我生活在一个没有立体视觉的环境中,但我的经验让我即使只用一只眼睛,也能‘知道’3D世界是什么样子。”

李飞飞回忆道,失去立体视觉的一大影响就是,她变得害怕开车。虽然她了解自己的车和路面情况,但在没有立体视觉的情况下,估计自己与路边停车的车之间的距离变得异常困难。她也不得不放慢车速,以避免刮到其他车辆。李飞飞总结道:“这次亲身经历让我深刻体会到立体视觉的重要性。我不推荐这样做,但是,如果你能试着将车停在一个地方,再用一只眼睛开另一辆车,你会明白,这正是你通过大语言模型体验到的世界。”

李飞飞最后提到,虽然大公司已经在大模型领域取得了显著进展,推动了相关研究,但3D计算机视觉依然是一个相对较新的研究领域。尽管如此,这个领域并不完全是新兴的,因为在计算机视觉领域,很多相关的研究早就开始了。但要让机器真正理解和重建3D空间,还有很长的路要走。

© 版权声明

相关文章

暂无评论

none
暂无评论...