OpenAI 在 2025 年 11 月推出了 GPT-5.1。相比此前的 GPT-5，这次更新并不是围绕“再拉高能力上限”来讲故事，而是更集中在几个具体问题上：推理节奏、交互一致性、风格控制，以及在公开评测中的表现。

从目前公开信息和社区讨论来看，我更愿意把 GPT-5.1 理解成：

把 GPT-5 调到一个更适合长期真实使用的状态，而不是开辟一条全新的技术路线。

一、GPT-5.1 的基本信息：两个模式，两条使用路径

根据 OpenAI 的官方介绍，GPT-5.1 被明确拆成两个主力模式：Instant 和 Thinking。目前，模型已经逐渐向Plus等付费会员推送（DataLearnerAI已经有了相关全新，实际测试写作能力的确是有明显进步）。之后会逐渐向免费用户和非注册用户推送，此外，3个月后，GPT-5就会转入Legacy（过时）的模型了。

这两个模式不是“大小不同”的两个模型，而是推理策略与适用场景的区分。

GPT-5.1 Instant

面向日常对话、快速问答、内容生成等场景。
特点是响应速度更快，同时具备自适应推理能力。
在 ChatGPT 里，这是大多数用户默认会接触到的版本。

适用的典型任务包括：解释、总结、写草稿、轻量规划、日常沟通等。虽然官方还未公布其它信息，但是根据此前GPT-5的情况，该模型应该是支持128K的输入，网页版应该只有16K。

GPT-5.1 Thinking

面向复杂问题求解和多步骤推理场景。
模型会根据任务本身的难度来调整内部“思考时长”：简单问题少想一点，复杂问题多想一点。

适用的典型任务包括：数学推导、多约束问题、代码逻辑分析、跨多轮的长链条问题解决等。

从这两个路径的设计可以看出，GPT-5.1 试图解决 GPT-5 时代一个比较典型的问题：

简单任务容易被过度推理，复杂任务则不够深入。

现在，“任务有多难”和“模型愿意想多久”之间，开始出现显式的设计关联。

二、为什么我认为 GPT-5.1 的重点在“体验层面”

GPT-5 刚发布时，外界对它的能力评价整体不低，但对“使用体验”的意见不少，尤其集中在：

对话风格不稳定；
推理深浅不均匀；
长对话中语气、结构容易漂移。

如果只看 GPT-5.1 的更新方向，很容易发现它是对着这些问题去做调整的：

对话体验官方反复使用 “more conversational” 这类描述，说明对话时的自然度与连续性是这次优化的重点之一。
自适应推理 Instant 和 Thinking 两个模式都以不同形式引入“按需思考”的策略，从而减少完全依赖提示工程来强行拉长推理链的情况。
风格与人格配置 GPT-5.1 支持多种预设对话风格，例如 Professional、Friendly、Candid、Nerdy 等，可以在前端直接选择。

这些变化背后，其实指向同一目标：

让模型在真实场景中表现得更稳定、更可预期，而不是每一轮都像在抽不同版本的“人格”。

三、在创意写作评测中的表现：Creative Writing v3 的侧面信号

如果只看官方资料，会觉得 GPT-5.1 的定位还是比较“泛用”的。但在社区主导的评测里，它在某些纵向能力上的表现已经被拉了出来，其中比较具代表性的一条，就是创意写作。

目前有几个关键信息可以放在一起看：

EQ-Bench 提供了一个 Creative Writing v3 榜单，用来评估大模型在 32 个写作提示上的创意写作能力，采用混合 rubric + Elo 打分体系。
在这个 Creative Writing v3 榜单上，模型 polaris-alpha 当前排在第一名。
多位研究者和观察者在分析中指出，polaris-alpha 的输出风格、性能表现和 API 侧特征都与 GPT-5 系列高度接近，因此普遍推测它对应的就是 OpenAI 的 GPT-5.1 系列（通常被认为是 GPT-5.1 Instant）。

综合这些公开信号，一个相对稳妥的表述是：

在 EQ-Bench 的 Creative Writing v3 榜单上，polaris-alpha 目前位居第一，而社区主流观点认为它对应的是 GPT-5.1 系列模型。

这至少说明，在创意写作这一纵向能力上，GPT-5.1 系列在社区基准中有一个清晰的“锚点”：不是泛泛而谈“写作不错”，而是在一个公开排行榜上处于头部位置。

四、我认为最关键的技术变化：推理时间被当作“设计变量”

从技术视角来看，我觉得 GPT-5.1 最大的变化，不是“智能”，而是：

把“推理要花多久时间”这件事纳入了模型内部的正式设计。

在之前的模型中：

推理长短主要由调用方控制（要不要写 CoT、max tokens 设多大等）；
模型本身对“该不该再想一步”没有显式机制。

而在 GPT-5.1 中：

Instant 模式在大部分请求中追求快速，但遇到复杂任务时，内部会触发更长的推理过程；
Thinking 模式从设计上就假定：不同任务应该有不同的推理预算，复杂任务可以“想久一点”。

这和近两年反复出现的几个概念是对应的：
test-time compute、thinking tokens、多阶段推理等——它们共同指向一个方向：

模型不再只是“给定算力、尽量用满”，而是“在算力预算内，为每个任务分配合适的思考资源”。

从工程实践的角度，这会直接影响准确率 / 成本 / 时延三者的组合方式。官方也给出了一个GPT-5.1和此前模型的对比图：

这个对比图最重要的信息就是说明在不需要复杂推理的场景，GPT-5.1可以使用更少的tokens给出答案。而面对更加复杂的问题的时候，它可以花费更多时间找到解决方案。这也是本次升级最大的特点。除此之外，官方没有给出任何评测对比。

五、风格控制：从“一个 ChatGPT”，到多个可切换角色

另一个明显的变化，是 GPT-5.1 中对对话风格的产品化支持。

公开信息显示，GPT-5.1 支持多种预设风格，比如 Default、Professional、Friendly、Candid、Efficient、Nerdy、Cynical 等，用户可以在前端选择。

这件事的意义不只是在“好玩”，而是直接关系到产品长期运营：

原本藏在系统 prompt 里的风格控制，被显式暴露成可配置选项。
对需要统一品牌调性、统一对话语气的场景，可以减少频繁微调 prompt 的工作。
在一个模型之上生成多个“可区分人格”，不再需要同时维护多套模型，通过风格模板组合就能实现。

对任何需要在统一平台上提供不同角色体验的产品来说，这都是一个很实用的设计点。

六、如果要评估是否切换到 GPT-5.1，我会关注什么？

这里我只谈“评估维度”，而不是“已经做过哪些实验”。

如果在一个系统里考虑引入 GPT-5.1，我会重点关注以下几个方向：

1. 任务类型与模式路由

哪些请求适合永远走 Instant？
哪些场景需要默认使用 Thinking？
是否需要在系统里加一层策略路由，根据任务类型决定模式？

2. 推理深度与成本的关系

Thinking 模式在复杂任务上的额外推理，带来的质量提升是否匹配 token 成本和时延？
需不需要为 Thinking 模式设定更明确的预算边界？

3. 风格稳定性对业务的一致性影响

在同一风格下，多轮对话的语气、结构是否稳定？
切换风格后，核心任务表现会不会受到干扰？

4. 长对话的结构化输出

长对话中，模型是否能稳定输出结构化内容（例如标题、列表、小结）？
在话题延展的情况下，是否容易偏离初始目标？

这些因素，都更偏向“可长期运行的产品”，而不是单次调用体验。

七、我目前对 GPT-5.1 的整体判断

基于目前公开资料、社区评测以及 Creative Writing v3 榜单的间接信号，我的个人结论大致是：

GPT-5.1 是一次围绕使用体验、推理控制、风格可配置展开的中期大版本，而不是一次彻底的技术跃迁。
在创意写作这一纵向能力上，polaris-alpha（被广泛认为对应 GPT-5.1 系列）在 EQ-Bench Creative Writing v3 榜单上排在第一，为 GPT-5.1 在“写作能力”这个方向提供了一个社区级的参考坐标。
对只关心极限能力的人来说，GPT-5.1 的变化可能不算“惊艳”；但对希望把大模型嵌入系统、要求行为稳定且可配置的人来说，它提供了更多实际可用的控制点。

如果把 GPT-4 时代的关键词看作是“把能力推到一个新高度”，
那 GPT-5.1 的关键词，更接近于：

在达到这个高度之后，模型能不能在真实世界里长期站得住。

本文由公众号“莎姐聊AI”授权转载｜ https://mp.weixin.qq.com/s/818SdDjoTYC0FMKXl8dsWQ ｜（编辑：ZN）

OpenAI发布GPT-5.1：围绕“对话体验、一致性、任务适配性”进行的系统化优化的实质性升级！重回写作排名第一！