前言
写给大模型时代的“同路人”
作为一名工作十余年的算法工程师,我有幸亲历了中国互联网的黄金十年。从最早的“千人千面”推荐系统,到后来的内容理解、用户画像;从一行行特征工程代码,到一次次线上A/B实验,我们曾把计算精度提升到小数点后四位,也曾为调试代码彻夜不眠。
最开始的时候,接触的“模型”更多的是XGBoost、逻辑回归(logisticregression,LR)、卷积神经网络(convolutional neural network,CNN),我们研习sklearn,也和点击率(click-through rate,CTR)较劲。那时没人想到,有一天,一个模型会写代码、答辩、做PPT、写营销文案,甚至还能完成更多复杂的创造性任务。
大模型的崛起,在某种程度上就像是一位熟悉又陌生的老朋友——底层的原理仍然是我们熟知的深度学习架构,但参数规模和任务表现已经远远超出传统模型的范畴。大模型是一场技术变革,更是一场心智革新。
于是,我决定写这本书,献给所有想要了解、应用甚至驾驭大模型的“后来人”,也献给那些在转型中迷茫、观望、跃跃欲试的产品经理、运营人员、管理者们。人们不一定需要亲自构建Transformer结构,但一定希望搞清楚:什么是提示工程?怎么用应用程序编程接口(appcication programming interface,API)接入生成式预训练变化器(generative pre-trained transformer,GPT)?为什么人们都在谈智能体(Agent)?大模型为什么这么贵?又为什么这么“聪明”?
《大模型核心原理与应用极简入门》本书会把复杂讲简单,把抽象讲清楚,把前沿讲明白。我们会从语言的出现谈起,讲清楚自然语言处理(natural language processing,NLP)的发展历程;从Transformer开始,理解BERT(bidirectional encoderrep resentations from transformers)和GPT的底层结构;从模型训练讲到推理部署,从API的调用方式讲到Agent的设计思路,再到低代码平台如何融合大模型,图文并茂、案例丰富,希望能让读者真正“看懂、用好、搞通”大模型。
当然,作为一个技术出身的作者,我在写书这件事上并不“专业”,甚至对技术的理解,我也比不上很多同行。所以,这本书没有太多深奥的数学公式,也不会跟读者探讨反向传播。读者可能会看到“煮鸡蛋竟能类比Transformer架构”的趣味解读,也可能看到“写Prompt像写剧本”的调侃。本书不强调术语堆砌,而是希望读者看完能点头:“哦,原来是这么回事!”
写书的过程也是我自己学习和反思的过程,技术写到最后,写的是人,写的是我们怎么理解这个时代,怎么与智能共舞,怎么不被浪潮裹挟,而是在浪潮中找到一块可以稳稳站立的板子。
这本书既是我个人实践的总结,也是一次尝试,希望本书能成为你探索大模型时代的地图与船桨,甚至是无声的共勉:“很多探索者都像你一样,在困惑中寻找光亮。”
愿读者读完本书后,对AI有更清晰的认知,对大模型有更实际的掌握,对这个飞速变化的技术世界,多一份从容不迫的笃定。
作者
2025年11月
作者简介
贺夏龙,毕业于哈尔滨工业大学计算机专业,中国计算机学会(CCF)高级会员,拥有10年以上互联网工作经验,负责过亿级DAU的系统建设,具备从0到1构建系统、用户画像系统、内容理解系统等,攻用户画像、NLP算法方向。

