【AI 大神 Karpathy 演讲】软件 3.0 时代已来，提示词就是新代码

近日，前OpenAI 创始成员 Andrej Karpathy 在 Y Combinator 举办的 AI Startup School 上发表了题为《AI 时代的软件》的演讲，引发了技术社区的广泛关注和热议，他的观点迅速“刷屏”。Karpathy 提出，我们正在经历一场前所未有的软件范式变革，标志着 “软件 3.0”时代的到来，其中“提示词”将成为新的编程语言。

软件版图的三次范式革命

Karpathy 认为，在过去 70 年间，软件底层范式几乎没有发生本质变化，但近几年却经历了两次剧烈冲击。他将软件演进分为三个主要阶段：

软件 1.0 (Software 1.0)：这是传统的编程范式，人类使用如 Python 或 C++ 等语言编写明确的代码指令来编程计算机。
软件 2.0 (Software 2.0)：这一阶段以神经网络的权重为核心。开发者不再直接编写复杂的逻辑，而是通过设计网络结构、准备数据集，并利用优化算法来“训练”模型，使其参数（权重）编码解决方案。例如，图像识别模型 AlexNet 和生成模型 Flux 就属于此类。在特斯拉的自动驾驶系统 Autopilot 的发展过程中，Karpathy 观察到 Software 2.0（神经网络）的能力不断膨胀，逐渐“吞噬”并替代了大量的 Software 1.0（C++ 代码），实现了从感知到信息融合等复杂任务的自动化。Hugging Face 被视为 Software 2.0 时代的 GitHub，因为它托管的是模型而非代码。
软件 3.0 (Software 3.0)：这是当前最深刻的变革。大型语言模型（LLM）本身变得可编程，而自然语言“提示词”则成为了编程 LLM 的新方式。例如，实现情感分类，在 Software 1.0 时代需要手写 Python 代码，2.0 时代需要训练神经网络，而 3.0 时代只需几句话的提示词即可完成。这一转变极大地降低了软件开发的门槛，使得任何能够用自然语言清晰表达意图的人，都有潜力成为“程序员”。

LLM：新时代的“操作系统”

Karpathy 运用多个生动类比来阐释 LLM 的本质及其所带来的生态变革：

新型“公共事业”：LLM 实验室（如 OpenAI、Google、Anthropic）投入巨额资本训练基础模型，就像电力公司建设电网；通过 API 提供“智能”服务，并按“百万 Token”等单位计费，如同按度数支付电费。用户对 LLM 服务要求低延迟、高可用性，这与对电力的需求如出一辙。当顶尖 LLM 服务中断时，整个世界仿佛经历了一场“智能停电”，凸显了对其日益增长的依赖。
“芯片工厂”：训练 LLM 需要巨大的资本投入、尖端技术和高度保密的“制程工艺”，这类似于建造芯片工厂。
新时代的“操作系统”：这是 Karpathy 最看重的类比。LLM 远比电力或水复杂，它们更像一个复杂的软件生态系统。LLM 扮演着中央处理器（CPU）的角色，负责核心的计算和推理；上下文窗口（Context Window）则相当于内存（RAM），决定了“电脑”能同时处理的信息量。LLM 能够编排各种能力（工具、知识）来解决复杂问题。LLM 时代的市场格局类似于传统操作系统：少数闭源提供商（如 Windows、macOS）与一个充满活力的开源替代品（如 Linux 中的 Llama 系列）并存。
“1960 年代”的计算：目前 LLM 计算昂贵且集中在云端，用户通过终端（API）分时共享使用，这与 1960 年代的大型机时代非常相似。LLM 的“个人计算”革命尚未真正到来，但已有迹象表明，像苹果 Mac Mini 这样具有大内存的设备适合运行某些 LLM，预示着未来的发展方向。
技术扩散方向的反转：与以往（如电力、计算机、GPS 等）技术最初由政府和大型企业掌握并逐步扩散到消费市场的模式不同，LLM 技术一诞生就直接进入了消费市场（例如，帮助解决“如何煮鸡蛋”的问题），而公司和政府反而成了追赶者。

LLM 的“心智”：有认知缺陷的超级学霸

Karpathy 强调，要有效编程 LLM，必须理解它们的“心理学”。他将 LLM 比作“人的灵魂”——基于海量人类语料训练的随机模拟器。这种“心智”有以下特点：

超凡的记忆力：它们拥有百科全书般的知识和近乎完美的记忆力，能够记住海量细节，类似电影《雨人》中的角色。
认知缺陷：幻觉：LLM 会一本正经地“编造”事实，且无法分辨真假。参差不齐的智能：在某些领域表现超群，但在另一些简单问题上却会犯低级错误，例如坚持“9.11 大于 9.9”。顺行性遗忘症：LLM 没有持续学习的能力，其“上下文窗口”是全部工作记忆，一旦对话结束就会“失忆”，如同电影《记忆碎片》的主角。
安全问题：LLM 容易受到提示词注入攻击，可能导致数据泄露。
理解这些特性对于设计能充分利用 LLM 优势并规避其风险的应用至关重要。

机遇 - 构建“部分自治应用”

Karpathy 强调，当前 LLM 的应用应聚焦于“部分自治”，而非完全自主的 Agent。他以编程工具 Cursor 为例，说明成功的 LLM 应用应具备：

上下文管理和多模型协作：有效组织数据和协调多个模型。
图形化界面（GUI）：提供直观界面（如红绿差异显示），让人类能快速审核和确认 AI 生成的内容。
自主程度可调的“自主滑块”：用户可根据任务需求调整 AI 的自动化程度，从局部修改到整体重构。
“生成-验证”循环：人类与 AI 的协作核心在于此，AI 负责生成，人类负责验证，目标是实现快速高效的循环。
“将 AI 拴在绳子上”：通过编写具体、细致的提示词，并采用小步提交的策略，来避免 AI 生成过于复杂或错误的内容。

编程的民主化：“Vibe Coding”

Karpathy 指出，当自然语言成为编程语言时，“人人可编程”的时代正在到来。他将这种通过自然语言提示 LLM casually 构建软件的方式称为“Vibe Coding”。他以自己不懂 Swift 却用 AI 快速开发 iOS 应用和“MenuGen”小程序为例，展示了 AI 降低软件开发门槛的强大潜力。

然而，他也强调，虽然代码生成变得简单，但将应用投入生产的真正挑战在于非编码的“苦活累活”，如身份认证、支付系统和域名部署等 DevOps 任务，这些仍然需要人类的介入和精心编排。

为 Agent 构建未来基础设施

Karpathy 展望未来，AI Agent 将成为数字信息的全新消费者和操纵者，因此需要为它们量身定制更易理解、更易调用的系统框架。他提出了一些早期探索：

llms.txt：类似于 robots.txt，这是一个简单的 Markdown 文件，用于向 LLM 提供网站的描述和功能信息，以避免其解析复杂的 HTML 页面时出错。
LLM 友好型文档：领先公司（如 Vercel 和 Stripe）正将其文档转换为 LLM 友好的 Markdown 格式，并将“点击”等模糊指令替换为可由 AI Agent 直接执行的 cURL 命令。
“上下文构建器”工具：这些工具（如 Gitingest、DeepWiki）能够将传统的开发者资源（如 GitHub 仓库）转换为 LLM 易于理解的格式，加速 LLM 在软件开发工作流中的集成。

结语

Karpathy 总结道，我们正处于一个激动人心的时代，海量的软件将被重写，无论是专业开发者还是“Vibe Coder”，每个人都将参与其中。LLM 正在重新定义计算机，扮演着新时代操作系统的角色。他鼓励行业内的每个人，尤其是即将步入行业的学生，精通这三种软件范式，并学会与这些虽有认知缺陷但能力超群的“人的灵魂”协作，通过构建“部分自治”产品和为 Agent 优化基础设施，共同推动“自治滑块”从增强向自主缓慢推进。