李飞飞的下一个十年:从 ImageNet 到 World Labs,AI 的空间智能时代

斯坦福李飞飞从视觉识别迈向“空间智能”新前沿 ,创立World Labs,聚焦三维世界的世界模型和空间推断

作者: 卡尔的AI沃茨
分类:产品深度
7 次阅读


       2025 年 6 月 16 日,斯坦福教授李飞飞在旧金山的 AI Startup School 举行了一场炉边对谈,主题为《Spatial Intelligence is the Next Frontier in AI》。这场演讲标志着她的研究和创业方向从“视觉识别”正式迈向“空间智能”,并介绍了她最新创立的公司——World Labs


       分享给大家。


001.webp


一、从 ImageNet 到生成式 AI:AI 视觉的第一阶段

       李飞飞是全球人工智能领域最具影响力的研究者之一。她曾担任谷歌云 AI 首席科学家、现任斯坦福大学计算机科学教授。她的工作在很大程度上定义了现代计算机视觉的发展路径。

       她在演讲中首先回顾了2009年创建 ImageNet 的过程——这是一个包含上千万张标注图片的数据集,成为后来深度学习时代的基础性里程碑。


“2007 年,我们意识到机器学习的瓶颈不在算法,而在数据。”


       在当时,神经网络在视觉领域并不流行。李飞飞与学生决定从互联网收集上亿张图片,建立全球视觉分类体系,并开放给整个研究界。


640.webp


       2012 年,AlexNet 在 ImageNet 比赛中以前所未有的准确率胜出,开启了深度学习革命。


       她强调,那一刻是“数据、算力和算法”三者首次融合:

      • 数据:ImageNet 提供了大规模训练样本;
      • 算力:GPU 计算被首次应用于深度学习训练;
      • 算法:卷积神经网络(CNN)在视觉任务中展现出突破性性能。


       这为后续的图像识别、自动驾驶、医疗影像、生成式模型奠定了基础。


二、从“识别物体”到“理解世界”:AI 视觉的第二阶段

       在 ImageNet 之后,李飞飞的研究继续推进视觉智能的边界。

       她与学生(包括后来的 OpenAI 联合创始人 Andrej Karpathy)合作,探索了“图像描述”问题——让模型不仅识别物体,还能用自然语言描述场景。


“当人类看一张图时,不只是看到猫或椅子,而是理解‘这是一间会议室’,‘这里有人在讲话’。那是视觉理解的真正意义。”


       2015 年,李飞飞团队发表了早期的“图像自动生成文字描述”论文,这成为“多模态学习”的重要起点。

       她在演讲中提到,当时她曾半开玩笑地对学生说:


“我们能不能反过来,让模型从一句话生成图像?”


       十年后,这个笑谈成为现实。

       如今的扩散模型与生成式 AI(如 Midjourney、Sora)都在执行这一任务。


三、空间智能:AI 的下一个前沿

       李飞飞认为,当前的大模型在语言领域已经进入平台期,而人工智能要想进一步接近通用智能,必须跨过一个新的门槛——空间智能


       她在演讲中指出:


“语言是 1D 的,基于符号与序列;世界是 3D 的,甚至加上时间,是 4D 的。AGI 如果不能理解三维世界,它就不完整。”


       空间智能指 AI 理解、推理和生成三维世界的能力。这不仅包括识别和生成三维场景,还涉及物理约束、空间关系、物体交互与行为规划


       李飞飞从生物进化的角度解释这一点:


      • 人类语言的演化大约花了几十万年;
      • 视觉系统的发展则经历了超过 5 亿年,从最早的三叶虫开始。


       她认为视觉与空间感知才是智能的根本驱动力。

       而相比语言模型的“文本自监督学习”,空间智能要面对更复杂的数据获取、物理一致性与多模态融合问题。


四、World Labs:面向世界模型的基础研究公司

       为了探索空间智能的落地路径,李飞飞创立了 World Labs

       她在演讲中透露,公司聚焦于“世界模型”的构建——这类模型不仅能生成视觉图像,更能推理三维结构、重建真实场景并进行空间推断


       联合创始团队由三位顶尖研究者组成:


      • Justin Johnson:李飞飞在斯坦福的博士生,早期提出“神经风格迁移(Neural Style Transfer)”;
      • Ben Mildenhall:NeRF(Neural Radiance Fields)第一作者,是三维重建技术的关键人物;
      • Christoph Lassner:Pulsar 创始人,差分渲染(Differentiable Rendering)领域专家。


640 (1).webp


       这些研究者代表了当下计算机视觉中最前沿的方向——从像素建模到场景重建,从图像理解到空间推理

       World Labs 的目标,是开发一类全新的基础模型,使 AI 能在“生成”与“重建”之间自由切换,既能用于虚拟世界(如内容创作、游戏、数字孪生),也能延伸到现实世界(如机器人感知、自动驾驶、工业仿真)。


“语言大模型重塑了文字世界,而世界模型将重塑物理世界。”她强调,空间智能模型将成为连接物理世界与数字世界的关键基础层。


五、空间智能的技术与产业意义

   1. 技术层面:从 2D 到 3D 的模型重构

       当前的生成模型(如扩散模型)主要处理二维像素,而空间智能需要在三维空间中理解几何、光照、运动和物理规律。

       这意味着模型架构、数据采集、算力组织都要重构。

       李飞飞指出,3D 感知是一个“病态问题”——三维到二维的投影存在信息丢失,需要融合多传感器和多模态信号才能解决。


   2. 应用层面:从虚拟世界到现实世界

       空间智能的应用范围远超图像识别。李飞飞提到三个主要方向:

      • 内容生成与设计:为建筑、游戏、影视提供可编辑的三维场景;
      • 机器人与自动化:让机器具备空间推理与操作能力;
      • 人机交互与沉浸体验:结合 XR、AR 硬件,实现更自然的交互方式。


       她也认为,这将为“元宇宙”“数字孪生”等尚未成熟的领域带来新的技术基础。


六、从学术到创业:延续探索式的路径

       飞飞在演讲最后谈到自己的人生轨迹。

       她早年移民美国时,在加州经营过一家自助洗衣店以资助学业;后来在普林斯顿任教,进入斯坦福与谷歌;2020 年在斯坦福创立“人本智能研究院”,推动人工智能与社会伦理结合。

       她强调,无论在学术还是产业中,AI 的最终目标应当是“以人为中心的智能系统”:即在推动技术极限的同时,保持人类价值与社会责任的约束。

       最后,过去十年,AI 的进步主要集中在“语言”这一维度:

       从 GPT 到 Claude,再到 Gemini,机器已经可以理解和生成文字、代码与图像。

       李飞飞所提出的“空间智能”,则代表着下一阶段的跃迁——让 AI 不仅能描述世界,更能在世界中行动、感知和推理。


       以上,祝你今天开心。


本文由公众号“卡尔的AI沃茨”授权转载| https://mp.weixin.qq.com/s/mqKYU-iJb46bwZZy1wPDYA|(编辑:潇飞)