AI大神卡帕西开源nanochat,百美元即可训练简易版ChatGPT

AI大神卡帕西开源nanochat项目,仅需不到100美元和约4小时,即可训练出具备基础对话能力的简易版ChatGPT,极大降低了AI开发门槛。

作者: AIPH
分类:业界新闻
10 次阅读

       前特斯拉人工智能与自动驾驶视觉总监、OpenAI研究员安德烈·卡帕西(Andrej Karpathy)近日开源项目nanochat,该项目仅需不到100美元(约711元人民币)即可训练出具备基础对话能力的类ChatGPT模型。项目发布后在GitHub上迅速获得大量关注,目前已收获超过5600个星标。


004.jpg


       与卡帕西早期仅支持预训练的nanoGPT不同,nanochat是一个完整的全栈训练与推理代码库,依赖极简,实现了从零构建轻量级对话AI的全流程。卡帕西在社交平台上表示,其基础架构参考了Meta的Llama模型并做了简化,同时融合了modded-nanoGPT的部分优化。


       据其介绍,完成指令微调阶段的训练耗时约3小时51分钟,成本为92.4美元。若进一步加入强化学习阶段,总训练时间预计在4小时左右,总成本仍可控制在100美元以内。训练所得的模型已具备基础对话、诗歌创作和简单问答能力。


005.jpg


       在扩展训练条件下,当投入提升至约1000美元、训练约41.6小时后,模型在多项基准测试中的表现显著提升,尤其在数学推理与编程相关任务中展现出初步能力。例如,在MMLU、ARC-Easy和GSM8K等评测中,模型得分分别超过40分、70分和20分。


       nanochat项目代码规模为8304行,具备以下核心功能:


      • 基于Rust实现的分词器训练;
      • 在FineWeb数据集上预训练Transformer结构语言模型;
      • 支持多任务指令微调与强化学习;
      • 集成带KV缓存的推理引擎,支持网页交互界面;
      • 可生成训练全流程的评估报告。


       该项目在社区中引起广泛反响,有开发者已制作出交互式代码图谱以辅助理解其结构。卡帕西也展示了模型生成诗歌的示例,显示出良好的交互能力。目前来看,nanochat以极低成本验证了轻量化训练对话系统的可行性,为AI开发中的资源优化提供了实践参考,尤其有助于推动生成式AI技术在资源受限场景下的应用探索。


(撰写|潇飞)