AI大神卡帕西开源nanochat，百美元即可训练简易版ChatGPT

前特斯拉人工智能与自动驾驶视觉总监、OpenAI研究员安德烈·卡帕西（Andrej Karpathy）近日开源项目nanochat，该项目仅需不到100美元（约711元人民币）即可训练出具备基础对话能力的类ChatGPT模型。项目发布后在GitHub上迅速获得大量关注，目前已收获超过5600个星标。

与卡帕西早期仅支持预训练的nanoGPT不同，nanochat是一个完整的全栈训练与推理代码库，依赖极简，实现了从零构建轻量级对话AI的全流程。卡帕西在社交平台上表示，其基础架构参考了Meta的Llama模型并做了简化，同时融合了modded-nanoGPT的部分优化。

据其介绍，完成指令微调阶段的训练耗时约3小时51分钟，成本为92.4美元。若进一步加入强化学习阶段，总训练时间预计在4小时左右，总成本仍可控制在100美元以内。训练所得的模型已具备基础对话、诗歌创作和简单问答能力。

在扩展训练条件下，当投入提升至约1000美元、训练约41.6小时后，模型在多项基准测试中的表现显著提升，尤其在数学推理与编程相关任务中展现出初步能力。例如，在MMLU、ARC-Easy和GSM8K等评测中，模型得分分别超过40分、70分和20分。

nanochat项目代码规模为8304行，具备以下核心功能：

基于Rust实现的分词器训练；
在FineWeb数据集上预训练Transformer结构语言模型；
支持多任务指令微调与强化学习；
集成带KV缓存的推理引擎，支持网页交互界面；
可生成训练全流程的评估报告。

该项目在社区中引起广泛反响，有开发者已制作出交互式代码图谱以辅助理解其结构。卡帕西也展示了模型生成诗歌的示例，显示出良好的交互能力。目前来看，nanochat以极低成本验证了轻量化训练对话系统的可行性，为AI开发中的资源优化提供了实践参考，尤其有助于推动生成式AI技术在资源受限场景下的应用探索。

（撰写|潇飞）