Phil Beisel是X一个特斯拉的智驾专家,这篇文章详细介绍了在他的推测下,特斯拉FSD和擎天柱是如何共享技术基础的。虽然文中的一些观点我们不是很认同,比如机器人和智驾的仿真方法和工具可能无法直接复用;在智驾强化学习可能只在仿真,但特斯拉有明确表示Optimus在尝试真实世界强化学习;数据管线上,特斯拉也在尝试直接学习human data等,但我们依旧觉得其中有值得关注的推测
要点如下:
共同本质:无论是四个轮子的汽车还是两条腿的机器人,它们本质上都是用视觉(摄像头)感知世界并做出物理行动的机器人。
共享的数据和仿真系统:擎天柱直接利用了FSD成熟且强大的数据处理管线。这意味着训练擎天柱的数据收集、处理和虚拟测试,都可以复用为FSD投入巨资建成的基础设施。
相同的训练方法:两者都采用模仿学习+强化学习的模式。先模仿人类行为数据建立基础能力,再通过在仿真器中海量试错来不断优化和学习新技能。
统一的AI架构:两者都使用混合专家(MoE)神经网络架构。该架构能将复杂任务分解为不同的技能模块,并根据当前场景灵活调用。FSD用它来应对不同路况,而擎天柱则用它来组合不同动作以完成复杂任务(如一边保持平衡一边拿起物品)。
通用的硬件与软件:它们共享底层的推理框架和特斯拉自研的AI芯片(如HW4),实现了软硬件的高度统一。
特斯拉正在将FSD打造成一个通用的机器人(自动驾驶机器人和具身智能Optimus)大脑。这种架构的统一,将使得擎天柱的研发站在FSD多年的积累之上,从而极大地加速其发展进程。一项技术的进步,可以同时推动两大产品的迭代。

以下为全文翻译:
特斯拉正在为其具身智能产品构建一个统一的架构,并以其全自动驾驶(FSD)系统为蓝图,来处理训练和推理过程中的视觉数据。
经过几个主要版本的迭代,FSD已演进为一个端到端的AI系统,它能感知环境并规划行动,实际上已达到L5级别的自动驾驶能力。其在现实世界中的表现得益于特斯拉的垂直整合技术栈——从仿真和数据管线到专为具身智能打造的自研推理芯片。
如今,该公司正将从FSD中学到的一切应用于其下一个前沿领域——擎天柱(Optimus)。通过将相同的“视觉到行动”架构扩展到机器人技术,特斯拉旨在为汽车和人形机器人创建一个统一的人工智能基础。
让我们深入探讨这个统一模型是如何运作以及利用了哪些共通之处。
机器人
乍一看,特斯拉FSD和擎天柱似乎天差地别。但实际上,它们的相似之处远多于不同之处。在其各自的人工智能系统控制下,特斯拉汽车和人形机器人都属于机器人,是由软件赋予生命的自动化机器。两者都是基于视觉的人工智能系统,接收光学信号输入并输出控制指令。
在汽车上,主要传感器是一套环绕车身的八个摄像头,可捕捉完整的360度视野。其输出是三个核心控制:加速、刹车和转向角。
在擎天柱上,主要传感器是一对前置摄像头——即它的眼睛(另由头部后方一个摄像头作补充,使其无需转身便可获得后方视野)。然而,其输出要复杂得多:腿、脚、臂和手的协同运动,以及臀部和头部的旋转。它的头部本身可以像人的目光一样平移和俯仰。
无论是以车轮还是双腿行动,它们都是机器人——由同一个核心智能驱动的具身智能产品。
数据打包与管线
数据是FSD训练的命脉,特斯拉在其数据管线的每个环节都投入了巨资,从数据筛选和合成,到传输、存储和处理。
大部分数据直接来源于车队——数百万辆车或是在为驾驶员运行FSD,或是在影子模式下运行。除了摄像头数据,特斯拉还将GPS、惯性测量单元(IMU)和麦克风的输入整合到一个统一的时间序列数据集中,该数据集包含同步的多传感器数据帧。这些数据集被高效地打包,以便于传输、存储和处理。
然而,部分数据是合成的(见下文“数据仿真”部分)。它填补了“数据空洞”——即在真实世界采集中代表性不足的场景。合成数据通常从真实案例开始,然后进行增强:一个十字路口的场景可能会被修改,以改变其几何结构、引入动态主体或仿真新的光照和天气条件。合成数据也为强化学习提供了基础,这一点我们稍后会讨论。
一旦数据被收集或生成,它们会被标记并上传到特斯拉的云端,开始进行处理。这个阶段可能包括自动标注——这是一个关键步骤,它为数据分配正确的行为结果。标注完成后,数据集被存储和索引,以备未来的训练使用。

图1:数据打包与管线
数据管线本身协调着模仿学习和强化学习的数据流——从存储中检索数据集,组成训练批次和周期,并管理验证循环。同样的基础设施也支撑着擎天柱,它很可能使用相同的数据打包和时间格式,将特斯拉的多传感器架构扩展到人形机器人领域。
这一领域虽不引人注目,却是基础所在——是特斯拉整个训练和测试生态系统沉默的支柱。
仿真
数据仿真是FSD训练和验证系统的一个重要组成部分。特斯拉开发了一个物理真实的仿真器,既能运行虚拟驾驶场景,也能生成合成数据集。该仿真器直接与特斯拉的数据管线集成,使得仿真数据和真实世界数据能够流经相同的处理基础设施。
在FSD中,仿真通常始于车队先前捕捉的真实世界场景。这作为一个模板,可以用新的驾驶数据进行增强。特斯拉的工程师可以加载特定的路段,并对其进行修改以产生全新的场景。
例如,旧金山市中心的第三街、市场街和吉里街的复杂交叉口——该区域有重叠的交通信号灯、公交车道和人行横道(见图2)。

图2:旧金山市中心第三街、吉里街和市场街的交叉口
特斯拉可以利用原始的车队数据,在仿真器中重建这些道路的几何结构。在此基础上,环境可以被修改——交通信号灯被替换为停车标志,添加新的车辆路径,或引入大量行人。每个对象都可以被配置为遵守或违反交通规则(例如,行人不可预测地横穿马路)。
这个仿真框架支持多种用途:
- FSD测试:让不同版本的软件通过同一个交叉口,以评估其性能和行为。
- 合成数据创建:生成增强的数据集以扩大训练数据的多样性。
- 强化学习(RL):运行迭代试验,让FSD智能体通过仿真经验学习最优行为(见下文)。
重要的是,特斯拉的仿真器不仅限于道路和车辆——它是一个物理真实的、用于现实世界环境的通用仿真器。
对于擎天柱来说,仿真扮演着同样关键的角色。同一套可以仿真城市交通的引擎,同样可以渲染家庭环境,例如一个厨房,擎天柱可以在其中学习如何从水槽中整理餐具并装入洗碗机。
强化学习
强化学习(RL)已成为训练FSD模型的一个主要部分。
特斯拉同时采用了模仿学习和强化学习。模仿学习通过使用数十亿条来自车队和仿真的数据集来模仿人类驾驶行为,为模型奠定了基础,设定了初始参数。然后,强化学习在此基础上进行构建。
在强化学习中,模型通过特定场景进行训练:在高速公路上保持车道位置和速度、通过复杂的交叉口,或避开突然出现在路上的行人。每个场景都会为车辆生成多种可能的轨迹,并根据行为与目标的契合程度给予奖励(或惩罚)。获得最高奖励的轨迹会被强化到模型的参数中——它实际上是通过反复评分来学习“正确”的行为。
对强化学习至关重要的是特斯拉的仿真器。车辆,即所谓的智能体(agent),可以在仿真环境中针对一个给定的场景运行数千次轨迹。这些推理周期完全在云端进行,实现了大规模的加速训练,这在现实世界中是不切实际的。
训练擎天柱的方式也大同小异,其中强化学习占据了中心位置。这些场景本质上就是擎天柱的技能——将盘子装入洗碗机、给房间吸尘,或执行一个精确的手部动作。模仿学习提供基础,而强化学习则微调其决策过程。特斯拉在其训练管线和仿真器上的全部投资都直接被擎天柱所利用,使其能够实现与FSD相同的大规模、高保真度学习。
混合专家与技能
FSD中使用了混合专家(MoE)架构。混合专家架构本质上是将神经网络细分为专门的“专家”模块,通过激活这些模块的任意组合来产生最终的决策集(输出)。
例如,想象FSD在暴雨中行驶于高速公路上。这时可能会有两个专家被激活:一个高速公路专家和一个雨天专家。高速公路专家可能占据大部分权重(比如80%),而雨天专家贡献较少(比如20%)。所有其他专家则保持“关闭”状态(权重为0%)。高速公路专家主导主要决策,而雨天专家则对其进行调节,可能会导致车速降低和更谨慎的变道。
在混合专家架构中,未激活的专家模块实际上是“沉默”的。它们的权重为零,完全被排除在推理周期之外。这不仅使行为能适应特定的驾驶条件,还通过减少每个周期的计算需求来提高效率。
在更精细的粒度上,一个专家模块可以被看作一项技能。例如,FSD可能包含一个专用于停车的混合专家模块——这是整个系统中一个离散的、可学习的能力。
再来看擎天柱。毫无疑问,人形机器人需要一套涵盖无数任务和子任务的广泛技能。通过将强化学习与混合专家架构相结合,特斯拉既拥有了支持技能发展的机制,也拥有了相应的框架。
在某些情况下,一项技能会单独运行,相当于作为一个单一专家模块被赋予100%的权重。而在其他情况下,一项主要技能会占主导地位,同时次要的子技能会并行运作。例如,将盘子装入洗碗机可被视为主技能,而保持平衡这一关键的子技能则在混合专家系统内同时运行。
这些技能可以按顺序组合以形成完整的动作,该框架实际上充当了一个状态机。我们在FSD 14版中已经看到了这一点:当车辆驶入一个有道闸的停车场时,车辆接近并识别出栏杆后,框架会激活“在门前等待”的技能(一个权重为100%的混合专家模块),使车辆暂停,等待驾驶员完成与道闸相关的操作后再继续行驶。擎天柱将严重依赖这种“技能链”状态机来执行其更复杂的、多技能的任务。
实际上,FSD和擎天柱共享相同的底层框架——一个能够对技能进行排序(管理专家模块的选择和权重)的自适应架构,从而同时支持驾驶和复杂的人形机器人任务。
推理框架
FSD(全自动驾驶)与 Optimus(人形机器人)共享几乎相同的推理架构——一个驱动动作与交互的核心框架。它相当于中央控制系统,负责将传感器数据分发给合适的 AI 模块,从而实现动作(物理行为)或交互(认知或语言推理)。这两部分 AI 在系统中是相互独立的,但由同一个推理框架协调运行。

图3:推理框架
该框架同时运行在车辆与 Optimus 上。它负责格式化并路由传感器输入,确保每个模块都能在正确的上下文中生成输出——无论是转动车轮、移动手臂,还是回应语音指令。
两者使用的输入源基本一致:摄像头、IMU(惯性测量单元)、GPS 与麦克风。Optimus 额外增加了触觉与本体感受传感器,用于手部与关节的反馈。
麦克风输入的数据用于语音交互,由机载的交互/推理 AI 处理。该 AI 负责语音识别(speech-to-text)、语言模型推理(language reasoning)与语音合成(text-to-speech),并由 Musk 旗下的 xAI 提供支持——正是当前生产 Grok 的公司。
语音输入可分为两类:一类是信息性请求(如 “现在几点了?”),另一类则是动作指令(如 “帮我拿杯饮料。”)。当语音输入涉及动作时,请求会被路由到动作框架,并与传感器数据一起作为上下文进行处理,从而生成相应的物理行为。
FSD 也正朝相同方向演进。随着其系统成熟,它将支持完整的语音交互与推理,成为 Robotaxi 的主要人机界面。乘客可以直接通过自然语言向车辆提问或下达命令。
在硬件层面,二者同样共享平台。目前 FSD(v14)运行在 HW4(亦称 AI4)芯片上,而 Optimus 的早期原型预计也将采用该平台。两者很快都会过渡到 AI5 芯片——预计于 2026 年中期推出。AI4 与 AI5 都是 Tesla 自研的专用神经处理器,专为 Tesla 的 AI 系统推理负载而设计。
融合
当 FSD 项目启动时,Optimus 尚未诞生。人形机器人的概念首次亮相于 2021 年 8 月的 Tesla AI Day。差不多同一时期,Tesla 决定为 FSD 采用纯视觉(vision-only)路线。虽然感知层已完全由 AI 驱动,但规划层仍主要依靠算法实现。
Tesla 的工程师很快意识到,Optimus 本质上是一种具身智能(Embodied AI)系统,其形态虽不同,但与 FSD 十分类似:配备 FSD 的汽车是“四轮机器人”,而 Optimus 则是“人形机器人”。两者的底层结构一致——以视觉为核心的感知系统,通过神经网络处理传感器数据,输出控制指令。
自那时起,这两条架构路线分别独立演进,团队各自推进。然而现在可以清晰地看到,一场融合正在发生——Tesla 正在打造一个面向具身智能的统一架构,核心都是基于视觉的神经系统。
目前,Tesla 正处于这种融合的关键阶段:公司正在统一各产品的底层组件——包括数据格式、仿真引擎、训练管线等,使其可同时服务于车辆与机器人。在此基础上,Tesla 构建了遵循相同原则的通用 AI 模型:结合模仿学习(Imitation Learning)、强化学习(Reinforcement Learning)与基于技能的专家混合(Mixture-of-Experts)框架。
统一架构的建立可能在初期会让开发节奏略有放缓,因为系统需要重构以实现兼容。但这是一次复利式的投入:一旦架构统一,底层基础设施的共享将极大加速各具身智能领域的整体进步。预计 Optimus 将凭借这些通用的神经基础、训练循环与推理系统,快速提升迭代速度——正如当年 FSD 的成长路径一样。
