由斯坦福大学等机构的研究团队推出的AgentFlow,是一种能够在线优化智能体系统的新范式。这种方法通过持续提升智能体系统对复杂问题的推理能力,实现“以小搏大”的性能飞跃,在多项任务上甚至领先GPT-4o。
AgentFlow的核心是一个由四个专业智能体组成的团队:规划器、执行器、验证器、生成器。它们通过共享内存进行协作,并利用新方法 Flow-GRPO,直接在系统内部对其核心的规划器智能体进行实时优化(即“流中强化学习”)。

AgentFlow以Qwen-2.5-7B-Instruct为基座模型,在10个基准测试中展现出卓越性能:在搜索任务中提升14.9%,在智能体任务中提升14.0%,在数学任务中提升14.5%,在科学任务中提升4.1%。其多项任务表现甚至超越比其大50倍的模型,包括GPT-4o和Llama3.1-405B。

AgentFlow发布后,受到业界广泛关注与看好。有网友表示,多智能体流(multi-agent flow)让人联想到“相位耦合推理”(phase-coupled reasoning),并期待“协同能力”取代“规模”成为衡量智能的指标。还有评论指出,Flow-GRPO采用共享内存的多智能体架构设计精妙,其中验证智能体能阻断幻觉化的工具调用,这对于显著减少智能体工作流中多步推理链的误差传播至关重要。

工具集成的智能体系统 + 流中强化学习训练
自“AI下半场”开启以来,智能体(Agent)在垂直与通用场景中呈井喷式发展。但当前智能体在复杂决策与持续优化能力上仍有局限。如何将智能体的推理能力与强化学习的自我进化机制深度融合,成为突破瓶颈的关键。早前,DeepSeek-R1和伊利诺伊大学香槟分校(UIUC)的Search-R1已通过强化学习,训练能自主推理并调用外部工具的模型(Tool-Integrated Reasoning Models),带来了新的启发。同时,LangGraph、PydanticAI等框架也从系统层面推动了智能体协作与可扩展性的提升。
AgentFlow提出了一种新范式,由四个具备记忆能力的专门化智能体协同配合:
- 规划器(Action Planner):分析任务、制定策略并选择工具。
- 执行器(Tool Executor):调用工具集并整合工具执行结果。
- 验证器(Verifier):基于累积记忆评估中间结果是否满足目标。
- 生成器(Generator):整合信息生成最终答案或建议。
对于每个新任务,规划器在智能体交互的“流”中,根据环境变化和其他智能体的反馈实时进行on-policy优化。这形成了闭环的自适应推理过程,使整个系统在复杂环境中实现鲁棒的工具调用与持续进化。

Flow-GRPO:流中强化学习优化算法
实现流中强化学习的核心挑战在于多轮信用分配(multi-turn credit assignment):即在长时跨度、奖励稀疏的条件下,如何稳定高效地训练。为此,团队提出了动作级别的(Action Level)多轮推理优化目标。

通过将轨迹最终的成功或失败信号(outcome reward)广播至每一步,Flow-GRPO将复杂的多轮强化学习问题转化为一系列可处理的单轮策略更新。该方法缓解了奖励稀疏问题,显著提升了训练效率,为智能体在复杂多轮推理中的稳定学习提供了基础。

实验结果与发现
研究团队在涵盖知识检索、智能体任务、数学推理和科学推理四大类、共10个基准测试上对AgentFlow的泛化能力进行了系统评测。AgentFlow在各项基准上的提升分别为:知识检索14.9%、智能体推理14.0%、数学推理14.5%、科学推理4.1%。
有趣的发现包括:
- 模型规模不是唯一答案:使用7B参数的AgentFlow在多个任务上超越了约200B参数的GPT-4o和Llama3.1-405B,证明合理的系统设计和训练方法比单纯堆砌参数更有效。
- “在流中学习”至关重要:对比实验显示,采用离线监督学习(SFT)训练规划器,性能反而平均降低19%。这表明智能体在真实交互环境**“流”中进行在线学习是实现高效推理的必要条件**。
- 自主发现新的解决路径:经过Flow-GRPO强化训练的规划器,学会了根据任务特点选择合适的工具组合。系统甚至自发探索出新的工具使用模式,如组合使用维基百科搜索和特定网页增强搜索,通过工具链获得更深入的信息挖掘。
- 动态推理深度与性能提升:对于多跳搜索等长链推理任务,Flow-GRPO训练后的AgentFlow能随着最大推理步数的上升稳步提升性能,同时不会大幅提升平均推理步数。这意味着系统学会了动态调整推理深度,只对长难任务增加有效推理步数。
总之,AgentFlow为智能体训练提供了一种全新的思路:与其追求一个功能完备的单一大模型或“一次性完美”的智能体系统,不如让智能体在系统中自我适应与持续学习。通过将群体智能与“边做边学”的范式相结合,AgentFlow使智能体系统能够在协同演化中不断优化,高效应对复杂任务。尽管距离实际应用仍有距离,但这让团队看到了Agentic AI蕴藏的巨大潜力与想象空间。
(撰写|潇飞)