价值万亿美元的 AI 软件开发生态

生成式 AI (Generative AI) 已然来临,而随之崛起的第一个巨大市场便是软件开发。全球约有 3000 万名软件开发者,若每位开发者每年创造 10 万美元的经济价值,那么 AI 软件开发每年贡献的总经济价值高达 3 万亿美元。

作者: Guido Appenzeller 与 Yoko Li
分类:产品趋势
62 次阅读

生成式 AI (Generative AI) 已然来临,而随之崛起的第一个巨大市场便是软件开发。这一乍听或许令人意外,从历史上看,开发工具的市场规模从未跻身顶级软件之列。然而,深入探究便会发现,这一趋势的出现合乎逻辑,背后主要有两大原因: (1) 开发者总是倾向于先为自己创造工具; (2) 这个潜在市场无比巨大。


全球约有 3000 万名软件开发者 (据 Evans Data 统计为 2700 万,SlashData 则估计为 4700 万) 。若每位开发者每年创造 10 万美元的经济价值 (此数据在美国可能偏于保守,但在全球范围则略高),那么 AI 软件开发每年贡献的总经济价值高达 3 万亿美元。我们根据过去一年与数十家企业及软件公司的交流估算,如今一个简单的 AI 编码助手便能将开发者的生产效率提升约 20%。


但这仅仅是开始。根据一些初步观察,我们估计顶级的 AI 部署至少让开发者生产效率翻倍,由此带来的 GDP 增量同样高达每年 3 万亿美元,这约相当于法国的国民生产总值。这意味着,仅由硅谷等地少数初创公司开发的技术,其对全球 GDP 的影响就将超过世界第七大经济体的全年总产值。


巨大的价值创造也催生了初创公司在收入和估值上的爆炸式增长。Cursor 在 15 个月内年化收入 (ARR) 就达到了 5 亿美元,估值接近 100 亿美元。Google 为收购 Windsurf 付出了 24 亿美元,主要目的是进行人才收购 (acqui-hire),从而击败了 OpenAI。Anthropic 发布了 Claude Code,并向其主要的分销渠道——AI 开发工具宣战。OpenAI 的 GPT-5 发布会更是完全聚焦于编程。面对如此巨大的市场机遇,AI 软件开发领域已经进入了群雄逐鹿的“战国时代”。


最初,AI 编码看似只是一个单一赛道,如今却已发展成一个庞大的生态系统,足以支撑数十家估值数十亿美元的公司,甚至可能诞生万亿级的行业巨头。过去几十年,软件一直是推动人类进步和经济增长的核心动力,它颠覆了各行各业,而现在软件行业自身也迎来了被颠覆的时刻。AI 不仅加速了开发进程,更让模型成为软件的新基石,在这双重利好的推动下,软件市场的质与量都将迎来巨大扩张,其市场规模也可能因此激增 (我们相信杰文斯悖论 (Jevon’s Paradox) 在此同样适用) 。


未来的 AI 编码技术生态会怎样?尽管尚处早期,下图尝试勾勒出我们目前观察到的格局。图中的橙色框代表了众多初创公司正在积极布局的 AI 工具领域,每个类别都列举了一个代表性产品。更多案例以及其他贯穿于整个流程的类别,详见下方的市场地图。


1.png

图 1: AI 软件开发流程图


基本循环:规划 -> 编码 -> 审查


仅在 18 个月前,早期的 AI 编码还只是让大语言模型 (Large Language Model, LLM) 生成特定代码片段,再手动粘贴到源代码中,这种方式如今看来已相当原始。当前的工作流通常被称为“规划 -> 编码 -> 审查”,从项目伊始就引入了大语言模型:首先让模型为新功能撰写详细描述,并识别出需要做出的决策和补充的信息。代码生成则通常通过一个代理循环 (agentic loop) 完成,其中可能还包括测试环节。最后,由人类开发者审查 AI 的成果并进行必要调整。


2.png

图 2: AI 分解高级规格并提出问题的示例


上图展示了一个启动新项目的简单工作流。我们交给模型的任务是起草一份高规范文档,但更关键的是,我们要求它返回一份所需补充信息的完整清单。在这个案例中,模型返回的清单长达数页,内容涵盖了对各项需求和架构决策的澄清需求,甚至还包括索取 API 密钥以及相关工具和系统的访问权限,以确保任务顺利完成。


这份规格文档具有双重价值:起初,它能指导代码生成,确保意图与实现一致。但更重要的是,在大型代码库中,规范文档能帮助人类和后续的大语言模型理解特定文件或模块的功能。人与 AI 的协作是一个不断迭代的过程:人类开发者修改代码后,通常会让大语言模型同步更新规范文档,以确保代码的最新变更得到准确反映。这样产出的代码文档清晰完善,对开发者和大语言模型都大有裨益。


3.png

图 3: Cursor Directory 图片,一个为大语言模型编写的编码指南库


除了项目本身的特定需求,如今大多数 AI 编码系统还整合了全面的架构与编码指南 (例如 .cursor/rules),这些指南可以覆盖公司、项目甚至特定模块等不同层级。我们还观察到,网络上开始出现专为特定场景打造、经过 AI 优化的编码最佳实践合集 (例如上图,更多例子可见于 Cursor、GitHub 或 Claude Code),它们的目标读者完全是大语言模型。我们正在见证纯粹为 AI 而非人类设计的自然语言知识库的诞生。


在这种新范式下,AI 不再仅是响应指令的代码生成器。大语言模型正在成为真正的合作伙伴,协助开发者完成设计与实现,参与架构决策,并识别潜在风险与限制。这些系统能够充分理解公司政策、项目指令、第三方最佳实践以及海量技术文档等丰富的上下文信息。


用于 AI 辅助规划的工具仍处于萌芽阶段。一些行业巨头和初创公司已经开发出能够从论坛、Slack、邮件或 Salesforce、Hubspot 等 CRM 系统中聚合客户反馈的应用 (如 Nexoro)。另一批公司 (如 Delty、Traycer) 则专注于开发网站或 VS Code 插件,以帮助开发者将规范文档分解为详细的用户故事,并辅助处理任务单 (ticketing) 流程 (如 Linear)。未来显而易见,现有的记录系统,如 Wiki 和任务追踪工具,也亟需彻底革新甚至被完全取代。


代码的生成与审查


规划一旦明确我们就进入一个迭代循环:由 AI 编码助手生成代码,再由开发者进行审查。至于以何种用户界面和集成方式最为理想,则主要取决于任务的复杂度和是否需要异步执行。


Tab 补全与编辑:这项功能已无缝集成到 Cursor、Windsurf、Sourcegraph Amp 等现代代码编辑器或 IDE 以及数十种 VSCode 插件中。它能自动补全当前代码行或执行局部修改,无需用户明确指令,因为 AI 能从上下文中智能推断所需操作。该功能依赖为特定任务深度优化的轻量高效模型,以保证响应的迅速和精准。


基于聊天的文件编辑:用户可通过聊天界面发出指令,并为 AI 提供必要的上下文。这种方式利用了具备长上下文窗口的大型推理模型,能够处理整个代码库,并频繁调用创建文件或添加依赖包等基础工具。该系统既可集成在 IDE 内部,也可通过网络访问网页,为用户的每次操作提供实时反馈。


后台运行的智能体 (Background Agents):这类工具的工作模式截然不同,它们能在无用户直接干预的情况下长时间自主运行,并能通过自动化测试来验证方案的准确性——鉴于缺少即时用户反馈,这一点至关重要。其最终产出可能是一个修改后的代码树,或是一个提交到代码仓库的拉取请求 (pull request)。Devin、Anthropic Code 和 Cursor Background Agents 均是此类代表。


AI 应用构建及原型设计工具:以 Lovable、Bolt/Stackblitz、Vercel v0 和 Replit 为代表的这类工具正在迅速崛起。这些平台能够根据自然语言描述、线框图或视觉设计稿生成功能完善的应用程序,而不仅仅是用户界面。如今,无论是追求快速实现创意的“感觉派”开发者,还是需要构建高保真原型的专业人士,都对它们青睐有加。尽管目前由 AI 生成的用户界面还很少被用于生产环境,但这或许只是因为这些工具尚不够成熟。


面向 AI 智能体 (AI Agent) 的版本控制:随着 AI 智能体承担越来越多的编程工作,开发者的关注点也从“代码如何变动”转向了“代码为何变动”及其最终效果。当整个文件由 AI 一次性生成时,传统的文本差异比较 (diffs) 的意义就不大了。为此,Gitbutler 等工具正尝试围绕“意图”而非“文本”来重构版本控制,通过记录指令历史、测试结果和智能体的来源信息进行追踪。在这个新框架里,Git 沦为后台的记账系统,而真正的核心交互则发生在一个用于追踪目标、决策和结果的语义层之上。


源代码管理系统集成:通过集成,AI能够审查任务单 (issues) 和拉取请求,并参与相关讨论。源代码管理 (source control management) 系统的协作特性,使得围绕任务和代码变更的讨论能为 AI 提供宝贵的上下文信息。此外,AI还能协助开发者审查代码,重点关注其正确性、安全性与合规性。Graphite 和 CodeRabbit 都提供了此类解决方案。


4.png

图 4: AI 代码审查示例


当前,编码助手的主循环通常是“代理式” (agentic) 的,即由大语言模型自主决定下一步行动并使用相应工具。对于文本修改、库更新或添加简单功能等任务,它们往往能够完全自动化地完成。我们已经历过这样的神奇时刻:在 GitHub 的功能讨论中,一句简单的“@aihelper 请实现”,就能触发一个完美无瑕、可直接合并的拉取请求。然而,对于更复杂的任务,这还未能成为常态。


遗留代码迁移:这一直是 AI 编码最成功的应用场景之一 (案例可参见此处),常见任务包括将 Fortran 或 COBOL 代码迁移到 Java,将 Perl 迁移到 Python,或是替换老旧的 Java 库。通常的策略是:先从遗留代码中生成功能规范说明,待确认无误后,再以此为蓝本生成新的实现,期间仅在出现模糊或不明之处时才参考旧代码。我们看到该领域正涌现出新的公司,其市场潜力十分巨大。


品控与文档


代码编写完毕后,还需要集成测试和文档撰写。这一阶段也催生了相应的专业工具。


面向开发者与大语言模型的文档:如今的大语言模型不仅擅长生成面向用户的文档,还能生成供其他大语言模型再运行时参考的文档。Context7 等工具能在恰当的时机自动抓取相关上下文 (如代码、注释和示例),确保生成的文档与实际代码实现保持一致。除静态页面外,Mintlify 等产品还能创建动态文档网站,开发者可直接与问答助手互动,用户甚至能通过简单的指令让智能体按需更新或重新生成文档的特定部分。此外,AI 还能生成安全与合规方面的专门文档,这对大型企业至关重要。该领域也出现了像 Delve 这样的专业工具。


AI 品控 (QA):开发者无需再手动编写测试用例,可依靠 AI 智能体在用户界面 (UI)、接口 (API) 和后端等各个层面生成、运行并评估测试。这些系统的行为就像自主的品控工程师,能够遍历应用流程、验证预期行为,并生成附有修复建议的缺陷报告。随着软件开发日益 AI 化,AI 品控使得开发闭环得以形成。流程不再是以往“编码 -> 审查 -> 测试 -> 提交”,在极端情况下,代码本身可能变得晦涩难懂,开发者唯一关心的将是其正确性、性能和预期行为。


服务于智能体的工具


除了上述面向人类开发者的工具,另一类专为 AI 智能体设计和使用的工具也应运而生。


代码搜索与索引:在处理拥有数百万乃至数十亿行代码的大型代码库时,每次调用大语言模型都提供全部代码作为上下文,是不现实的 (成本也无法承受)。因此最佳实践是为大语言模型配备搜索工具,以便查找相关的代码片段。对于小型代码库,简单的 RAG 或 grep 搜索或许足够。但对于大型代码库 (可参考 Google 的相关论文),则必须使用能够解析代码、构建调用图的专用软件,以确保找到所有相关引用。这一新兴领域包括提供大型代码库分析工具的 Sourcegraph,以及开发专用模型以识别和排序相关文件的 Relace 等公司。


网页与文档搜索:Mintlify 和 Context7 等工具擅长生成并维护能感知代码的文档,它们从实时代码库中提取最相关的片段、注释和用法示例,以保证文档的准确性。相比之下 Exa、Brave 和 Tavily 等网页搜索工具则专为即时信息检索而优化,能够帮助智能体按需快速查找外部参考资料和长尾知识。


代码沙箱:运行和测试代码以及使用简单的命令行工具进行分析调试,是智能体的重要能力。然而,由于模型可能产生“幻觉”或接触到恶意内容,在本地开发环境执行代码存在风险。此外,复杂的开发环境也可能影响测试的稳定性。代码沙箱则能确保测试环境的一致性和可重复性。E2B、Daytona、Morph、Runloop 以及 Together 推出的 Code Sandbox 等沙箱供应商满足了这一需求,已成为 AI 开发技术生态中的关键一环。


市场地图


下图尝试描绘了更广泛的 AI 编码初创企业生态。其布局大致遵循前述的软件开发生命周期,并补充了其他相关类别。下列公司排名不分先后,其中也包含了一些行业巨头的产品。


5.png

图 5: AI 编码初创企业生态市场地图


软件开发行业正迎来怎样的变革?


基于 AI 的软件开发技术已然成熟,现在的挑战在于:企业如何将其规模化应用。最近在 Reddit 上有个热帖问道:“Claude Code 的价格极其昂贵,有什么优化成本的技巧吗?”成本确实不菲:假设你的代码库占满了 10 万 Token 的上下文窗口,使用 Claude Opus 4.1 进行推理,并生成了 1 万 Token 的输出和思考过程。按照每百万输入/输出 Token 分别为 15/75 美元的价格计算,单次查询的成本就达2.50 美元。按此计算,若每小时查询 3 次,每天工作 7 小时,每年工作 200 天,仅这一项开销就高达每年 10,000 美元。这个数字已经超过了在许多地区一名初级开发者的年薪。


但我们认为成本并不会阻碍 AI 开发工具的普及。许多平台 (如 Cursor) 允许通过统一界面调用多种模型,并可智能选择最优成本方案。即便使用最经济的模型,其带来的收益也相当可观。然而,市场的讨论焦点已从“谁的模型最强”转向“谁能以合适的价格创造价值”。数十年来,软件开发的成本几乎等同于人力成本,但大语言模型的出现增加了一笔可观的运营支出 (opex)。这是否意味着向低成本国家进行 IT 外包的模式将走向终结?答案是:这或许不会,但无疑改变了其背后的商业逻辑。


这一切对全球 3000 万软件开发者又意味着什么?AI 会在可预见的未来取代他们吗?当然不会。这种论调往往源于媒体的夸大其词和某些公司的激进营销,后者试图将软件的价值等同于其所取代的人力成本,而非按用户许可计价。历史经验表明,尽管这种“替代定价法”在市场早期或许能奏效,但任何商品的成本与定价最终都将趋近于其边际成本。就目前我们掌握的有限数据来看,那些最积极拥抱 AI 的企业反而正在增加开发者的招聘,因为它们看到了大量能在短期内实现正投资回报率 (ROI) 的应用场景。


然而,软件开发这项工作本身已发生了深刻变化,相应的培训体系也必须与时俱进。当今的大学课程亟待大刀阔斧的改革,但遗憾的是,包括我们在内,没有人确切知道未来的方向。算法、架构和人机交互等基础知识依然重要,编码能力也未过时,因为你经常要把陷入僵局的大模型拉回正轨。在今天看来,大学里典型的软件开发课程,更像是上一个时代的古董,与当今软件产业的实际需求已严重脱节。


从更长远的角度看,AI 编码生态使软件具备了自我扩展的能力。例如,Gumloop 允许用户用自然语言描述希望增加的功能,然后应用程序会调用 AI 自行编写代码来实现。这项技术能走多远?我们能否让大语言模型根据自然语言描述的 API 规范,在运行时进行后期绑定 (late binding),从而实现应用间的集成?未来的桌面应用是否会标配一个“AI 一键添加新功能”的按钮?长远来看,一个应用程序作为一成不变的代码发布,而没有任何自我扩展的能力是难以想象的。


我们最终能否彻底消灭代码,转而让大语言模型直接执行我们的高级意图 (正如 Andrej Karpathy 所建议的)?在最简单的场景下,这已成为现实:ChatGPT 可以轻松执行简单的算法。但对于复杂任务,编写代码在效率上依然遥遥领先。在当前的 GPU 上,通过优化代码执行两个 16 位整数的加法运算,耗时约为 10^ −14秒;而一个 大语言模型 生成结果至少需要 10^ −3 秒。这上千亿倍的效率优势足以构筑起一道难以逾越的护城河,我们相信代码将在未来很长一段时间内继续存在。


是时候依靠 AI 的力量大展宏图了


回顾历史,科技的超级周期总是创业的黄金时代,此次的AI浪潮也不例外。AI 既催生了对新工具的需求,也极大地加速了产品的开发周期,这种组合对初创公司极为有利。以编码助手为例:Microsoft 旗下的 GitHub Copilot 凭借先发优势、与 OpenAI 建立起的合作关系,以及在 IDE (VSCode)、代码托管 (GitHub) 和企业销售渠道上的绝对领导地位。一度看似不可战胜,但多家初创公司依然在竞争中脱颖而出。在科技的超级周期中,守成者总是步履维艰。


我们正处在一场软件开发领域自诞生以来最宏大变革的序幕中。软件工程师们将获得前所未有的强大工具,从而变得更高效、更有创造力。用户最终也将享受到更多、更优质的软件。同样重要的是,当下正是软件开发领域创业的最佳历史时机。


本文转载编译自https://a16z.com/|原文地址:https://a16z.com/the-trillion-dollar-ai-software-development-stack/|(编译:Katerina)