Meta 提出 Free Transformer :突破其八年架构限制

Meta提出Free Transformer架构,通过潜在变量让模型在生成前进行内部思考,在多项任务中取得显著提升

作者: AIPH
分类:业界新闻
23 次阅读


       10月20日,Meta在arXiv上发布题为《The Free Transformer》的重要研究论文,由日内瓦大学教授、Meta FAIR实验室研究科学家Francois Fleuret独立完成。值得注意的是,作者所在的FAIR实验室正是Meta近期裁员涉及的主要部门之一,这一研究成果在此时发布尤为引人关注。


截屏2025-10-24 15.51.40.png


突破八年限制的新架构

       论文提出了一种全新的解码器Transformer扩展架构,该架构通过无监督学习的潜在变量来调节生成过程,直接打破了自2017年Transformer诞生以来所有GPT模型遵循的核心生成规则。具体而言,传统的自回归生成过程被重新设计为基于潜在变量的条件生成过程。


       八年来,传统Transformer在生成内容时始终遵循严格的自回归模式,只能依据前文逐个预测下一个最可能的词元,既缺乏内部规划与潜在思考能力,也无法回头修改已生成的内容。这种"想什么就说什么"的机制被认为是导致模型产生幻觉问题的重要原因之一。


赋予模型"隐藏心智"

       Meta的创新方法在解码器内部引入了随机潜在变量Z,使模型在开始输出前能够先在内部进行"思考",秘密决定生成策略。从技术层面看,这一设计使得任何潜在的随机变量Y_r,无论其与词元序列S_1,…,S_t及先前采样的其他潜在变量Y_1,...Y_{r-1}之间存在怎样的统计依赖关系,都可以表示为函数f_r(S_1,...,S_t, Y_1,..,Y_{r-1}, Z_r),其中Z_r来自随机生成器。


截屏2025-10-24 15.52.10.png


       这种架构的核心优势在于:如果在生成过程中为模型提供足够多相互独立采样的随机值Z_1, Z_2,…,只要模型容量足以编码函数f_r,通过适当的训练过程就能构建出具有任意依赖结构的潜在变量系统。这就相当于为GPT模型赋予了某种"隐藏的思维过程"。


精巧的模型设计

       Free Transformer的模型架构展现了精妙的设计思想——这是一种在中间层注入噪声Z的标准解码器结构。该设计允许与编码器共享一半的Transformer模块,从而显著减少计算开销——只有一个Transformer模块需要专门为编码器计算。


截屏2025-10-24 15.53.00.png


       在训练阶段或KV缓存预填充过程中,张量Z是与编码器一起采样得到的。模型拥有一个专属于编码器的Transformer模块,该模块采用非因果注意力机制,使得整个编码器具备非因果结构。这一点至关重要,因为解码器的条件约束可能产生长程影响,需要考虑完整的序列信息才能获得潜在变量的合理条件分布。


       编码器模块的查询输入来自一个经过训练的可学习常数token,该token会被复制以匹配序列长度;而键和值的输入则来自解码器前半部分的输出。使用可学习常数作为查询输入,而不是输入序列的标准表示,是为了防止编码器学习到逐token的映射关系,使其能够捕捉序列的全局特征,从而增强跨任务和跨数据集的可迁移性。


合成数据验证机制

       为了验证Free Transformer确实利用潜在变量Z对其生成过程进行条件化,研究者专门设计了合成数据集。在该数据集中,每个序列以1/16的概率将任意字符替换为感叹号。通过在这一数据上训练四个不同free bits设置的Free Transformer模型,研究者深入分析了潜在变量的编码机制。


截屏2025-10-24 15.53.50.png


       实验结果显示,当KL散度值非常低时,模型表现类似于普通Transformer;随着KL散度增加,模型首先仅在潜在状态中编码目标位置;进一步增大时,模型开始同时编码目标位置和噪声;当KL散度继续升高时,模型会将整个序列编码进潜在状态,导致生成结果出错。这一系列实验清晰地展示了潜在变量的工作机制。


下游任务表现卓越

       在标准基准测试中,研究者在1.5B和8B参数规模的模型上进行了全面评估。结果显示,Free Transformer在代码生成(HumanEval+、MBPP)、数学推理(GSM8K)等需要较强推理能力的任务上均取得了显著提升。


       特别值得注意的是,在使用1万亿token训练的大规模8B参数模型中,Free Transformer展现出更加明显的优势。在最终性能评估中,模型在HumanEval+上的表现提升11.6%,在MBPP上提升2.8%,在GSM8K上提升2.8%。同时,在MMLU和CSQA等多选常识推理任务上,模型也分别取得了5.2%和5.8%的提升。


截屏2025-10-24 15.54.28.png


       训练过程中的性能曲线显示,Free Transformer在大多数任务上都表现出比基线模型更稳定、更快速的收敛特性。尽管由于编码器的加入,模型需要额外3.1%的计算量和参数,但这一开销相对于获得的性能提升而言是完全可以接受的。


开创性的意义

       Free Transformer架构的提出标志着Transformer模型发展的重要转折点。通过引入潜在变量系统,研究者成功地为大语言模型赋予了内部思考和规划的能力,这为解决当前大语言模型在复杂推理、规划任务中面临的幻觉问题和逻辑不一致性提供了全新的技术路径。


       这一创新不仅具有重要的理论价值,更为下一代大语言模型的发展指明了方向。随着潜在变量机制的进一步完善和优化,未来的语言模型可能真正具备接近人类思考过程的生成能力,在复杂任务处理中展现出更强的推理和规划能力。


       论文地址: https://arxiv.org/pdf/2510.17558


(撰写|潇飞)