3 天就斩获 20000 星！这个 GitHub 开源项目凭啥？

AI 知识库8个月前发布逛逛

6,451 0 0

这个叫 nanochat 的开源项目，刚刚开源 3 天就获得 21.6K 的 Star 了。

这个 Star 的增长速度绝了，都快赶上当初 DeepSeek R1 开源的盛况了。

这个开源项目很牛。

AI 大佬想把大模型平民化：想训练一个专属小型 ChatGPT 不需要几百万美元了，通过 nanochat 这个开源项目，只需 100 美元。

逛逛本文帮你了解这个牛逼开源项目

01作者简介

说开源项目之前，先聊聊项目作者@karpathy。他是AI 领域的顶尖研究者和技术领袖，全球最牛逼的 AI 科学家之一。

OpenAI 的创始成员，在 2015-2017 年参与深度学习、生成模型和强化学习工作，推动了 GPT 模型的早期探索，并协助公司搭建技术团队。

在 2017-2022 年他跳槽到了特斯拉，作为AI 高级总监直接给马斯克汇报，领导自动驾驶视觉团队，负责神经网络训练、数据标注和算法部署。

其团队开发的系统支撑了特斯拉 Autopilot 和全自动驾驶（FSD）的核心能力，包括实时道路感知、决策规划等。

现在他成立了 AI 教育公司，同时在 YouTube 开了个频道，推荐关注：

https://www.youtube.com/@AndrejKarpathy

在 GitHub 上的 followers 有 1.5W，是世界顶级的开源大神，挂在他 GitHub 主页的开源项目少说也有 20K 的 Star。

他最近开源了nanochat后，在国外社交媒体上收大量好评。

这是真·大佬。

02nanochat项目

nanochat 不是某个现成的 AI 工具，而是一套全栈 AI 大模型解决方案。

从分词，到用预训练、微调，再到评估模型能力、推理，最后搭个网页界面，所有环节都在一个代码库里完成，还不用依赖一堆复杂的第三方库。

大佬开源这个项目的目的很清晰：让 AI 大模型训练平民化。使用这个开源项目，你花 100 美元租一台 8 块 H100 显卡的计算节点（约 24 美元 / 小时），跑 4 小时就能得到一个能聊天的小模型。花 800 美元能训出 19 亿参数的 d32 模型（32 层 Transformer），性能比 2019 年的 GPT-2 还好。这个开源项目的代码只有 44 个文件、8000 多行，每个环节都写得直白。比如分词用 rustbpe 模块，训练用 scripts 里的 base_train.py，网页服务靠 scripts.chat_web。

想自己跑通流程也很简单：把开源项目 Clone 下来，然后租一台 8XH100 的服务器，执行 bash speedrun.sh ，运行4 小时后用如下命令启动网页 UI。

python-m scripts.chat_web

启动网页 UI，就能跟自己训的模型聊天了：

过程中还能看 log 文件跟踪进度，训完有 report.md 报告。里面列着模型在常识推理、数学题等任务上的得分，帮助你直观理解训练时间、模型大小和性能的关系。

nanochat 最大的意义，是把 AI 大模型从大厂专属拉到了普通人面前。它不是要做最强大的模型，而是要做最易上手的全流程 AI 大模型工具。让你能亲手训模型，让小团队能低成本定制模型，让研究者能快速试错。不管你是想入门大模型、做小场景应用，还是教别人学 AI，这个项目都值得试试。毕竟，能花 100 美元跑通从数据到可用的全流程，这种看得见、摸得着的体验，比看十篇论文都管用。

开源地址：https://github.com/karpathy/nanochat

03点击下方卡片，关注逛逛 GitHub