《大模型核心原理与应用极简入门》

全程图解大模型，一本书搞懂大模型的底层逻辑

前言

写给大模型时代的“同路人”

作为一名工作十余年的算法工程师，我有幸亲历了中国互联网的黄金十年。从最早的“千人千面”推荐系统，到后来的内容理解、用户画像；从一行行特征工程代码，到一次次线上A/B实验，我们曾把计算精度提升到小数点后四位，也曾为调试代码彻夜不眠。

最开始的时候，接触的“模型”更多的是XGBoost、逻辑回归（logisticregression，LR）、卷积神经网络（convolutional neural network，CNN），我们研习sklearn，也和点击率（click－through rate，CTR）较劲。那时没人想到，有一天，一个模型会写代码、答辩、做PPT、写营销文案，甚至还能完成更多复杂的创造性任务。

大模型的崛起，在某种程度上就像是一位熟悉又陌生的老朋友——底层的原理仍然是我们熟知的深度学习架构，但参数规模和任务表现已经远远超出传统模型的范畴。大模型是一场技术变革，更是一场心智革新。

于是，我决定写这本书，献给所有想要了解、应用甚至驾驭大模型的“后来人”，也献给那些在转型中迷茫、观望、跃跃欲试的产品经理、运营人员、管理者们。人们不一定需要亲自构建Transformer结构，但一定希望搞清楚：什么是提示工程？怎么用应用程序编程接口（appcication programming interface，API）接入生成式预训练变化器（generative pre－trained transformer，GPT）？为什么人们都在谈智能体（Agent）？大模型为什么这么贵？又为什么这么“聪明”？

《大模型核心原理与应用极简入门》本书会把复杂讲简单，把抽象讲清楚，把前沿讲明白。我们会从语言的出现谈起，讲清楚自然语言处理（natural language processing，NLP）的发展历程；从Transformer开始，理解BERT（bidirectional encoderrep resentations from transformers）和GPT的底层结构；从模型训练讲到推理部署，从API的调用方式讲到Agent的设计思路，再到低代码平台如何融合大模型，图文并茂、案例丰富，希望能让读者真正“看懂、用好、搞通”大模型。

当然，作为一个技术出身的作者，我在写书这件事上并不“专业”，甚至对技术的理解，我也比不上很多同行。所以，这本书没有太多深奥的数学公式，也不会跟读者探讨反向传播。读者可能会看到“煮鸡蛋竟能类比Transformer架构”的趣味解读，也可能看到“写Prompt像写剧本”的调侃。本书不强调术语堆砌，而是希望读者看完能点头：“哦，原来是这么回事！”

写书的过程也是我自己学习和反思的过程，技术写到最后，写的是人，写的是我们怎么理解这个时代，怎么与智能共舞，怎么不被浪潮裹挟，而是在浪潮中找到一块可以稳稳站立的板子。

这本书既是我个人实践的总结，也是一次尝试，希望本书能成为你探索大模型时代的地图与船桨，甚至是无声的共勉：“很多探索者都像你一样，在困惑中寻找光亮。”

愿读者读完本书后，对AI有更清晰的认知，对大模型有更实际的掌握，对这个飞速变化的技术世界，多一份从容不迫的笃定。

作者
2025年11月