
OpenAI 在 2025 年 11 月推出了 GPT-5.1。相比此前的 GPT-5,这次更新并不是围绕“再拉高能力上限”来讲故事,而是更集中在几个具体问题上:推理节奏、交互一致性、风格控制,以及在公开评测中的表现。
从目前公开信息和社区讨论来看,我更愿意把 GPT-5.1 理解成:
把 GPT-5 调到一个更适合长期真实使用的状态,而不是开辟一条全新的技术路线。
一、GPT-5.1 的基本信息:两个模式,两条使用路径
根据 OpenAI 的官方介绍,GPT-5.1 被明确拆成两个主力模式:Instant 和 Thinking。目前,模型已经逐渐向Plus等付费会员推送(DataLearnerAI已经有了相关全新,实际测试写作能力的确是有明显进步)。之后会逐渐向免费用户和非注册用户推送,此外,3个月后,GPT-5就会转入Legacy(过时)的模型了。
这两个模式不是“大小不同”的两个模型,而是推理策略与适用场景的区分。
GPT-5.1 Instant
- 面向日常对话、快速问答、内容生成等场景。
- 特点是响应速度更快,同时具备自适应推理能力。
- 在 ChatGPT 里,这是大多数用户默认会接触到的版本。
适用的典型任务包括:解释、总结、写草稿、轻量规划、日常沟通等。虽然官方还未公布其它信息,但是根据此前GPT-5的情况,该模型应该是支持128K的输入,网页版应该只有16K。
GPT-5.1 Thinking
- 面向复杂问题求解和多步骤推理场景。
- 模型会根据任务本身的难度来调整内部“思考时长”:简单问题少想一点,复杂问题多想一点。
适用的典型任务包括:数学推导、多约束问题、代码逻辑分析、跨多轮的长链条问题解决等。
从这两个路径的设计可以看出,GPT-5.1 试图解决 GPT-5 时代一个比较典型的问题:
简单任务容易被过度推理,复杂任务则不够深入。
现在,“任务有多难”和“模型愿意想多久”之间,开始出现显式的设计关联。
二、为什么我认为 GPT-5.1 的重点在“体验层面”
GPT-5 刚发布时,外界对它的能力评价整体不低,但对“使用体验”的意见不少,尤其集中在:
- 对话风格不稳定;
- 推理深浅不均匀;
- 长对话中语气、结构容易漂移。
如果只看 GPT-5.1 的更新方向,很容易发现它是对着这些问题去做调整的:
- 对话体验 官方反复使用 “more conversational” 这类描述,说明对话时的自然度与连续性是这次优化的重点之一。
- 自适应推理 Instant 和 Thinking 两个模式都以不同形式引入“按需思考”的策略,从而减少完全依赖提示工程来强行拉长推理链的情况。
- 风格与人格配置 GPT-5.1 支持多种预设对话风格,例如 Professional、Friendly、Candid、Nerdy 等,可以在前端直接选择。
这些变化背后,其实指向同一目标:
让模型在真实场景中表现得更稳定、更可预期,而不是每一轮都像在抽不同版本的“人格”。
三、在创意写作评测中的表现:Creative Writing v3 的侧面信号
如果只看官方资料,会觉得 GPT-5.1 的定位还是比较“泛用”的。但在社区主导的评测里,它在某些纵向能力上的表现已经被拉了出来,其中比较具代表性的一条,就是创意写作。
目前有几个关键信息可以放在一起看:
- EQ-Bench 提供了一个 Creative Writing v3 榜单,用来评估大模型在 32 个写作提示上的创意写作能力,采用混合 rubric + Elo 打分体系。
- 在这个 Creative Writing v3 榜单上,模型 polaris-alpha 当前排在第一名。
- 多位研究者和观察者在分析中指出,polaris-alpha 的输出风格、性能表现和 API 侧特征都与 GPT-5 系列高度接近,因此普遍推测它对应的就是 OpenAI 的 GPT-5.1 系列(通常被认为是 GPT-5.1 Instant)。
综合这些公开信号,一个相对稳妥的表述是:
在 EQ-Bench 的 Creative Writing v3 榜单上,polaris-alpha 目前位居第一,而社区主流观点认为它对应的是 GPT-5.1 系列模型。
这至少说明,在创意写作这一纵向能力上,GPT-5.1 系列在社区基准中有一个清晰的“锚点”:不是泛泛而谈“写作不错”,而是在一个公开排行榜上处于头部位置。
四、我认为最关键的技术变化:推理时间被当作“设计变量”
从技术视角来看,我觉得 GPT-5.1 最大的变化,不是“智能”,而是:
把“推理要花多久时间”这件事纳入了模型内部的正式设计。
在之前的模型中:
- 推理长短主要由调用方控制(要不要写 CoT、max tokens 设多大等);
- 模型本身对“该不该再想一步”没有显式机制。
而在 GPT-5.1 中:
- Instant 模式在大部分请求中追求快速,但遇到复杂任务时,内部会触发更长的推理过程;
- Thinking 模式从设计上就假定:不同任务应该有不同的推理预算,复杂任务可以“想久一点”。
这和近两年反复出现的几个概念是对应的:
test-time compute、thinking tokens、多阶段推理等——它们共同指向一个方向:
模型不再只是“给定算力、尽量用满”,而是“在算力预算内,为每个任务分配合适的思考资源”。
从工程实践的角度,这会直接影响准确率 / 成本 / 时延三者的组合方式。官方也给出了一个GPT-5.1和此前模型的对比图:
这个对比图最重要的信息就是说明在不需要复杂推理的场景,GPT-5.1可以使用更少的tokens给出答案。而面对更加复杂的问题的时候,它可以花费更多时间找到解决方案。这也是本次升级最大的特点。除此之外,官方没有给出任何评测对比。
五、风格控制:从“一个 ChatGPT”,到多个可切换角色
另一个明显的变化,是 GPT-5.1 中对对话风格的产品化支持。
公开信息显示,GPT-5.1 支持多种预设风格,比如 Default、Professional、Friendly、Candid、Efficient、Nerdy、Cynical 等,用户可以在前端选择。
这件事的意义不只是在“好玩”,而是直接关系到产品长期运营:
- 原本藏在系统 prompt 里的风格控制,被显式暴露成可配置选项。
- 对需要统一品牌调性、统一对话语气的场景,可以减少频繁微调 prompt 的工作。
- 在一个模型之上生成多个“可区分人格”,不再需要同时维护多套模型,通过风格模板组合就能实现。
对任何需要在统一平台上提供不同角色体验的产品来说,这都是一个很实用的设计点。
六、如果要评估是否切换到 GPT-5.1,我会关注什么?
这里我只谈“评估维度”,而不是“已经做过哪些实验”。
如果在一个系统里考虑引入 GPT-5.1,我会重点关注以下几个方向:
1. 任务类型与模式路由
- 哪些请求适合永远走 Instant?
- 哪些场景需要默认使用 Thinking?
- 是否需要在系统里加一层策略路由,根据任务类型决定模式?
2. 推理深度与成本的关系
- Thinking 模式在复杂任务上的额外推理,带来的质量提升是否匹配 token 成本和时延?
- 需不需要为 Thinking 模式设定更明确的预算边界?
3. 风格稳定性对业务的一致性影响
- 在同一风格下,多轮对话的语气、结构是否稳定?
- 切换风格后,核心任务表现会不会受到干扰?
4. 长对话的结构化输出
- 长对话中,模型是否能稳定输出结构化内容(例如标题、列表、小结)?
- 在话题延展的情况下,是否容易偏离初始目标?
这些因素,都更偏向“可长期运行的产品”,而不是单次调用体验。
七、我目前对 GPT-5.1 的整体判断
基于目前公开资料、社区评测以及 Creative Writing v3 榜单的间接信号,我的个人结论大致是:
- GPT-5.1 是一次围绕使用体验、推理控制、风格可配置展开的中期大版本,而不是一次彻底的技术跃迁。
- 在创意写作这一纵向能力上,polaris-alpha(被广泛认为对应 GPT-5.1 系列)在 EQ-Bench Creative Writing v3 榜单上排在第一,为 GPT-5.1 在“写作能力”这个方向提供了一个社区级的参考坐标。
- 对只关心极限能力的人来说,GPT-5.1 的变化可能不算“惊艳”; 但对希望把大模型嵌入系统、要求行为稳定且可配置的人来说,它提供了更多实际可用的控制点。
如果把 GPT-4 时代的关键词看作是“把能力推到一个新高度”,
那 GPT-5.1 的关键词,更接近于:
在达到这个高度之后,模型能不能在真实世界里长期站得住。
本文由公众号“莎姐聊AI”授权转载| https://mp.weixin.qq.com/s/818SdDjoTYC0FMKXl8dsWQ |(编辑:ZN)