大模型（LLM）科普 — 从你发出一句话到收到回复

完整流程：从打字到看到回复

把你和大模型对话的整个过程，拆解成 8 个阶段。

用户输入

你在聊天框里打了一句话

你在手机或电脑上的聊天界面中，输入了一段文字，比如「帮我写一首关于秋天的诗」，然后点击发送按钮。

类比：就像你给一位笔友写了一封信，把信投进了邮筒。

技术细节

你输入的这段文字，在技术上叫做 Prompt（提示词）。

聊天界面（前端应用）负责收集你的输入，并将其打包成一个标准格式的「请求」。

除了你的文字，请求中还会附带一些额外信息，比如你之前的对话历史、你的偏好设置等。

你的文字会被包装成一个叫 API Request 的数据包，通常是 JSON 格式，里面包含你说的话、用哪个模型、一些控制参数等。

小贴士：Prompt 的质量直接影响回答质量。说得越清楚、越具体，回答就越好。就像问路说「附近有吃的吗」和「这附近 500 米内有没有评分 4 分以上的川菜馆」效果完全不同。

网络传输与服务端接收

你的消息飞向云端服务器

你的消息通过互联网，被发送到运行大模型的云端服务器上。这些服务器通常在大型数据中心里，配备了大量高性能 GPU（图形处理器，在这里用来做大量并行计算）。

类比：就像你的信从邮筒出发，经过邮政系统的分拣和运输，最终到达笔友手中。只不过这个过程发生在毫秒之间。

技术细节

前端通过 HTTPS 协议将请求发送到后端 API 服务器，确保数据在传输过程中是加密的。

大型服务通常有成千上万的用户同时在对话，所以有一个叫「负载均衡器」的系统来分配请求，确保每台服务器不会被压垮，就像餐厅的领位员把客人分配到不同的桌子。

服务器会先验证你的身份（你是否登录、是否有权限、是否是付费用户等），这叫「鉴权」。

大模型运行在 GPU 集群上。一个大模型可能需要几十甚至上百块 GPU 同时协作才能运行，因为模型太大了，一块 GPU 装不下。

小贴士：这就是为什么使用大模型需要联网——你的文字需要发送到远程服务器去处理，结果再传回来。模型并不在你的手机或电脑上运行（虽然也有一些小型模型可以在本地运行）。

预处理与上下文组装

把你的话翻译成模型能懂的语言

服务器收到你的消息后，不会直接交给模型。而是先进行一系列预处理：把你说的话和系统指令、对话历史、安全规则等组装在一起，形成一个完整的「上下文」。

类比：就像老师批改作文前，先看这个学生之前写过什么、有哪些批改标准，把背景信息都准备好。

3a · 系统提示词注入

在你的消息之前，系统会添加一段「系统提示词（System Prompt）」。这段话定义了模型的「角色」和「行为规范」，比如「你是一个有帮助的 AI 助手，你应该礼貌、准确地回答问题，不能生成有害内容」。

类比：就像公司给客服人员的工作手册，规定了什么该说、什么不该说、用什么语气。

3b · 对话历史拼接

系统会把你之前在这次对话中说过的话和模型的回复，按顺序拼接到一起。这样模型就能「记住」之前聊过什么，保持对话连贯。

类比：就像你和朋友聊天时，你们都记得之前说过什么，不需要每句话都从头解释背景。

重要提示：大模型其实没有真正的「记忆」。每次回复时，它都要重新阅读完整的对话历史。这就是为什么对话太长时可能会「忘记」早期的内容——因为它能处理的文本长度有限（称为「上下文窗口」，就像桌子大小有限，能摆的资料有限）。

3c · 分词（Tokenization）

计算机不认识汉字或英文单词，所以需要将文字切分成更小的单元，叫做 Token。一个 Token 可能是一个汉字、一个英文单词、或者一个词的一部分。

类比：就像把一句话拆成一块块拼图。模型需要先把文字拆成这种标准化的小块，才能进行后续的数学计算。

中文示例

「我喜欢吃苹果」

→ [我] [喜欢] [吃] [苹果]

中文通常一到两个字为一个 Token

英文示例

"I love eating apples"

→ [I] [ love] [ eating] [ app] [les]

英文一个单词通常是 1-2 个 Token，不常见的长词可能被拆成多个

Token 是大模型计费和能力的基本单位。当你看到「支持 128K 上下文」时，意思是模型最多能同时处理约 12.8 万个 Token（大概相当于一本 10 万字的书）。

模型推理

核心环节

大模型的大脑开始运转

Token 序列被送入模型，基于从海量数据中学到的「知识」来预测回复内容。这是计算量最大的环节。

类比：就像一位读过上亿本书的学者，在大脑中飞速检索知识、组织语言、构思回答——只不过「思考」实际上是海量的矩阵乘法。

4a · 词嵌入（Embedding）

每个 Token 被转换成一个高维向量（一长串数字）。这些数字编码了这个词的「含义」。意思相近的词，对应的向量在数学空间中距离更近。

类比：想象每个词都有一个「身份证」，上面不是一个编号，而是几千个数字。比如「国王」和「王后」的身份证上的数字很相似，而「国王」和「苹果」的数字差异很大。

国王 - 男人 + 女人 ≈ 王后

这说明模型学到了性别、身份等抽象概念之间的数学关系

4b · Transformer 架构处理

这是大模型最核心的技术架构。Token 向量进入由几十到上百层「Transformer 层」组成的神经网络，逐层处理和提炼信息。

其中最重要的创新是自注意力机制（Self-Attention）——它让模型在处理每个词时，能「注意到」句子中所有其他词，并判断哪些词与当前词的关系最密切。

类比：想象你在一个房间里听到很多人说话。你的注意力会自动聚焦到和你相关的对话上，忽略无关的背景噪音。自注意力机制就是让模型具备这种「选择性注意」的能力。

「小明把书还给了图书馆，因为他已经读完了。」

→ 当模型处理「他」这个词时，自注意力机制会让它特别「注意」前面的「小明」，从而理解「他」指的是小明，而不是图书馆。

信息在这些层中像流水线一样逐步加工：

前几层（浅层）

识别基础语法结构、词性、简单的词组搭配

像先看清楚每个字怎么念、是名词还是动词

中间层

理解句子的完整含义、上下文关系、指代关系

像理解整句话在说什么、谁做了什么事

后几层（深层）

进行更抽象的推理、整合全局信息、做出最终判断

像综合考虑所有因素后，决定应该怎么回答

规模有多惊人？

GPT-4 等顶级模型据传有数千亿到万亿级别的参数（参数就是模型学到的「知识」的数量化表示）
每个参数都是一个在训练中调整过的数字，共同决定了模型的行为
打个比方：如果每个参数是一个突触连接，那大模型的突触数量已经接近一只老鼠大脑的连接数

4c · 逐词生成（自回归生成）

大模型不是一下子生成整个回答，而是一个 Token、一个 Token 地生成。每生成一个新 Token，它就被加入到已有序列中，作为生成下一个 Token 的依据。

第1步：模型读完你的问题，预测第一个回复 Token，比如「秋」

第2步：把「秋」加入序列，模型再预测下一个 Token，比如「风」

第3步：把「秋风」加入序列，预测下一个 Token，比如「送」

如此反复，直到生成一个「结束标记」或达到最大长度限制

秋风送 ... [结束]

类比：就像一个人在写作文，写完一个字后，根据已经写的内容和整体构思，决定下一个字写什么。每一步都受前面所有内容的影响。

这就是为什么大模型回复较长内容时，你能看到文字是一个一个蹦出来的（流式输出）——它确实就是一个词一个词地生成的。

4d · 采样策略

模型每一步不是直接选「最可能的那个词」，而是从多个候选词中按概率进行「采样」（随机抽取）。这个过程受几个关键参数控制：

Temperature（温度）范围通常 0 到 2

控制回答的「创造性」vs「确定性」

低温 0.1

回答非常确定、保守，每次回答差不多

适合事实性问答

就像一个严谨的学者

高温 1.5

回答更有创意、多样，但可能更不准确

适合创意写作

就像一个天马行空的诗人

Top-P（核采样）：只从累积概率排名前 P% 的候选词中选择。比如 Top-P = 0.9 表示只考虑概率加起来达到 90% 的那些最可能的词，忽略剩余的极低概率选项。

类比：就像考试选择题，你排除掉明显不对的选项后，在剩下的合理选项中做选择。

Top-K：只从概率最高的 K 个候选词中选择。比如 Top-K = 50 表示只考虑最可能的 50 个词。

类比：就像从全班成绩前 50 名中选代表，后面的同学不在考虑范围内。

安全过滤与内容审核

回答出口前的安全检查站

生成的内容在返回前需经过安全检查，确保不包含有害、违法、不当内容。

类比：就像机场安检。行李（回答）在登机（发给你）之前，必须通过 X 光机（安全审核系统）。

三道防线

1. 训练阶段的对齐（RLHF / Constitutional AI）

在模型训练的后期，通过人类反馈（RLHF）或 AI 辅助反馈（如 Constitutional AI）来教模型「什么样的回答是好的、安全的」。这让模型在生成时就倾向于产生安全的内容。

类比：就像从小教育孩子什么该做什么不该做，是在源头上培养好习惯。

2. 输出过滤器

额外的分类模型会检查输出内容是否包含暴力、色情、歧视、个人隐私泄露等不当内容。如果触发了安全规则，回答可能被修改或拒绝。

类比：就像出版社的审稿编辑，在书稿出版前做最后一道把关。

3. 输入过滤器

同样地，你发送的消息也会被检查。如果包含试图诱导模型产生有害内容的「越狱」提示，系统会提前拦截。

类比：就像门卫在入口处检查来访者，防止可疑人员进入。

流式传输与返回

回答像流水一样送回你的屏幕

模型生成的 Token 不是全部生成完再一次性发给你，而是边生成边发送。每生成一个或几个 Token，就立即推送到你的设备上，这就是你看到文字一个个蹦出来的原因。

类比：就像直播而不是录播。不需要等整个视频录完才能看，实时传给你。

技术细节

通常使用 SSE（Server-Sent Events）或 WebSocket 技术。服务器持续推送数据流，浏览器实时接收并显示。

服务器返回的是 Token ID（数字），前端通过对应的「词表」把数字转回文字显示出来。这个过程叫解码（Decoding），速度非常快。

为什么要用流式传输？

用户体验更好：不需要等待很长时间才能看到回复的第一个字
感知延迟降低：虽然总生成时间可能一样，但用户几乎立即就能看到回复开始
可以提前阅读：你可以在模型还在生成后面内容的同时，就开始阅读前面的回答

前端渲染与展示

文字出现在你的聊天窗口中

你使用的聊天应用收到返回的文字后，将其渲染成好看的格式显示在聊天界面中。

类比：就像报社收到记者的稿件后，排版编辑将其排成报纸版面，加上标题、配图、分栏，让读者看起来舒适。

Markdown 渲染

模型会用 **加粗**、- 列表、```代码块``` 等语法格式化回答，前端把标记转换成视觉样式。

代码高亮

如果回答包含代码，会用不同颜色标注关键词、字符串等，方便阅读。

交互功能

展示复制按钮、点赞/点踩反馈按钮、重新生成按钮等辅助功能。

LaTeX 渲染

如果回答包含数学公式，会渲染成漂亮的数学符号。

后续处理与反馈循环

对话不止于回答本身

对话完成后，系统还会在后台进行处理，为后续的服务提升做准备。

对话历史存储

你的对话记录会被保存，这样你下次打开应用时可以继续之前的对话。不同服务商对数据保留的政策不同。

用户反馈收集

当你点击「赞」或「踩」按钮时，这些反馈会被收集，用于后续改进模型。这是 RLHF 流程的一部分——真实用户的反馈帮助模型变得更好。

用量计量与计费

对于付费 API 用户，系统会统计本次对话消耗了多少 Token（输入 + 输出），按照对应的价格计费。不同模型的价格不同，通常越强大的模型越贵。

日志与监控

系统会记录请求的耗时、是否出错、用户满意度等指标，用于系统优化和问题排查。

深入了解

几个你可能好奇的问题

大模型是怎么训练出来的？

训练大模型就像培养一个学生，分为三个阶段：

1. 预训练（Pre-training）

让模型阅读互联网上的海量文本（几万亿个词），学习语言的基本规律。任务很简单：遮住下一个词，让模型来猜。猜对了就表扬，猜错了就调整。经过数万亿次的猜测和调整，模型就学会了语言的结构和知识。

类比：就像让一个孩子读了图书馆里的每一本书，虽然没有老师系统地教他，但他自然而然学到了语法、知识和推理能力。

这个阶段的计算成本极其昂贵，顶级模型可能需要花费数亿美元、数万块 GPU 训练几个月。

2. 指令微调（Instruction Fine-tuning / SFT）

预训练完的模型就像一个博学但不懂沟通的学者，它会续写文字但不擅长回答问题。这一阶段用大量「问题-高质量回答」的配对数据来训练模型，教它学会对话的方式。

类比：就像上了培训班，学习怎么把自己的知识用「回答用户问题」的方式表达出来。

3. 对齐（Alignment / RLHF）

通过人类反馈的强化学习，让模型的回答更有帮助、更安全、更符合人类的价值观和期望。人类评估员对模型的多个回答进行排名，模型根据排名学习什么样的回答是好的。

类比：就像实习期，有一个导师不断给你反馈，告诉你哪些做得好、哪些需要改进，帮你成为一个更好的「员工」。

什么是「上下文窗口」？为什么大模型会「忘事」？

上下文窗口（Context Window）是大模型一次能处理的最大文本长度，用 Token 数来衡量。就像你的办公桌大小有限，能同时摊开的文件数量有限。超出桌面的资料就无法查看。

GPT-3.5

≈ 3,000 字

GPT-4 Turbo

128K

≈ 100,000 字

Claude 3.5

200K

≈ 150,000 字

当对话内容超过上下文窗口大小时，最早的对话会被「挤掉」，模型就好像「忘记」了前面的内容。这不是模型变笨了，而是它的「桌面」放不下了。

为什么大模型会「胡说八道」（幻觉现象）？

大模型的本质是「根据概率预测下一个最可能的词」，而不是「从数据库中查找事实」。当它遇到不确定的问题时，它不会说「我不知道」，而是倾向于生成一个「看起来合理」但可能完全错误的答案。

为什么会出现幻觉？

模型学到的是「什么词经常出现在一起」的统计规律，而不是「事实」本身
模型不具备验证信息真伪的能力
训练数据中本身可能就包含错误信息

典型案例：

编造一本不存在的学术论文，并附上逼真的作者和出版信息
声称一个历史事件发生在错误的年份
编造一个看起来正确但实际上有错的数学推导过程

应对方法：

对重要信息交叉验证
让模型引用来源，检查是否真实
使用具有搜索能力的产品
持「信任但要验证」的态度

大模型运行一次要花多少钱？

大模型的推理（运行）成本按 Token 计费，不同模型价格差异很大。

模型大小：参数越多，需要的计算资源越多，成本越高
输入 Token 数：你发送的文字越长（包括对话历史），成本越高
输出 Token 数：生成的回答越长，成本越高
通常输出 Token 比输入 Token 贵 2-4 倍，因为生成比理解需要更多计算

面向普通用户的产品通常采用订阅制（如每月 20 美元），不按 Token 单独计费，但可能有使用量上限。

什么是 RAG？大模型怎么获取新知识？

RAG = Retrieval-Augmented Generation（检索增强生成）

RAG 就像给大模型配了一个「图书管理员」。当用户提问时，系统先去知识库中检索相关文档，然后把检索到的内容连同用户的问题一起交给模型。这样模型就可以基于最新的、准确的资料来回答问题，而不仅仅依赖自己的「记忆」。

1用户提问「公司最新的报销政策是什么？」

2检索系统在公司知识库中搜索相关文档

3找到《2025年Q4报销政策》文档

4将文档内容 + 用户问题一起发给大模型

5大模型基于文档内容生成准确回答

大模型本身是一个「学识渊博但消息可能不是最新」的顾问，RAG 让它可以在回答前先查阅最新的资料库，确保回答的时效性和准确性。

减少幻觉
有据可查，减少编造

保持时效
可以回答训练之后的新问题

适配领域
可以对接企业内部的专属知识

关键术语速查表

一句话理解核心概念

LLM Large Language Model

大语言模型

通过学习海量文本数据，掌握了语言生成和理解能力的超大规模 AI 模型。

一句话：能跟你用自然语言聊天的 AI 背后的核心技术。

Token

文本最小单位

模型处理文本的最小单位，通常是一个字、一个词或一个词的一部分。

一句话：大模型的「文字积木块」，是它读和写的基本单位。

Prompt

提示词

你输入给模型的文字内容，包括问题、指令或任何你想让模型处理的文本。

一句话：你对 AI 说的话。

Transformer

核心架构

当前主流大模型采用的核心架构，由 Google 在 2017 年提出，核心创新是自注意力机制。

一句话：大模型的「大脑架构蓝图」。

Self-Attention

自注意力机制

让模型在处理每个词时，能自动关注到上下文中所有相关词语的技术。

一句话：让 AI 知道一句话里哪些词和哪些词关系密切的技术。

Embedding

词嵌入 / 向量表示

将文字转换为数字向量的技术，使意思相近的词在数学空间中距离更近。

一句话：把文字翻译成数字，让计算机能做数学计算。

Fine-tuning

微调

在预训练好的通用模型基础上，用特定领域或特定任务的数据进一步训练，让模型在该领域表现更好。

一句话：让「全科医生」变成「专科医生」的训练过程。

RLHF

基于人类反馈的强化学习

通过人类对模型回答的评价打分来训练模型，使其生成更符合人类期望的回答。

一句话：通过人类当「老师」打分来教 AI 什么是好回答。

Hallucination

幻觉

模型自信地生成看似合理但实际错误或完全虚构的内容。

一句话：AI 一本正经胡说八道。

Context Window

上下文窗口

模型在一次对话中能处理的最大 Token 数量。

一句话：AI 的「工作台大小」——决定它能同时记住多少对话内容。

Temperature

温度

控制模型输出随机性的参数。低温度产生更确定的回答，高温度产生更多样、更有创意的回答。

一句话：调节 AI 是「循规蹈矩」还是「天马行空」的旋钮。

API

应用程序编程接口

一套标准化的接口规范，让开发者可以通过代码调用大模型的能力，将其集成到自己的产品中。

一句话：让程序员在自己软件里使用大模型能力的「连接插座」。

RAG

检索增强生成

让模型在回答前先检索外部知识库，然后基于检索到的内容生成更准确的回答。

一句话：让 AI 先查资料再回答问题，而不是光靠记忆。

GPU

图形处理器

最初为图形渲染设计的处理器，由于擅长大规模并行计算，成为了训练和运行大模型的核心硬件。

一句话：大模型的「引擎」——没有它，大模型就跑不起来。

Inference

推理

已经训练好的模型接收用户输入并生成回答的过程。区别于「训练」，推理是模型的日常工作状态。

一句话：AI 「上班干活」回答你问题的过程。

Parameter

参数

模型中可学习的数字变量。参数数量通常代表了模型的规模和能力。现代大模型的参数量可达数千亿甚至万亿。

一句话：AI 学到的「知识」的数量化衡量，参数越多通常意味着「学问越大」。

Agent

智能体

在大模型基础上，赋予模型使用工具、执行多步骤任务、自主决策能力的系统。不再只是问答，而是能「做事」。

一句话：能自己思考、规划、使用工具完成复杂任务的 AI「员工」。

从你发出一句话到收到回复
中间到底发生了什么？

什么是大语言模型（LLM）？

常见误解 vs 真相

完整流程：从打字到看到回复

用户输入

网络传输与服务端接收

预处理与上下文组装

3a · 系统提示词注入

3b · 对话历史拼接

3c · 分词（Tokenization）

模型推理

4a · 词嵌入（Embedding）

4b · Transformer 架构处理

4c · 逐词生成（自回归生成）

4d · 采样策略

安全过滤与内容审核

流式传输与返回

前端渲染与展示

后续处理与反馈循环

深入了解

大模型是怎么训练出来的？

1. 预训练（Pre-training）

2. 指令微调（Instruction Fine-tuning / SFT）

3. 对齐（Alignment / RLHF）

什么是「上下文窗口」？为什么大模型会「忘事」？

为什么大模型会「胡说八道」（幻觉现象）？

大模型运行一次要花多少钱？

什么是 RAG？大模型怎么获取新知识？

关键术语速查表

有趣的冷知识

大模型不认识「图片」

训练数据量 = 几百万本书

碳排放量 = 五辆汽车一生

最著名的论文标题

模型不知道自己是谁

一张图看懂完整流程

从你发出一句话到收到回复 中间到底发生了什么？

什么是大语言模型（LLM）？

常见误解 vs 真相

完整流程：从打字到看到回复

用户输入

网络传输与服务端接收

预处理与上下文组装

3a · 系统提示词注入

3b · 对话历史拼接

3c · 分词（Tokenization）

模型推理

4a · 词嵌入（Embedding）

4b · Transformer 架构处理

4c · 逐词生成（自回归生成）

4d · 采样策略

安全过滤与内容审核

流式传输与返回

前端渲染与展示

后续处理与反馈循环

深入了解

大模型是怎么训练出来的？

1. 预训练（Pre-training）

2. 指令微调（Instruction Fine-tuning / SFT）

3. 对齐（Alignment / RLHF）

什么是「上下文窗口」？为什么大模型会「忘事」？

为什么大模型会「胡说八道」（幻觉现象）？

大模型运行一次要花多少钱？

什么是 RAG？大模型怎么获取新知识？

关键术语速查表

有趣的冷知识

大模型不认识「图片」

训练数据量 = 几百万本书

碳排放量 = 五辆汽车一生

最著名的论文标题

模型不知道自己是谁

一张图看懂完整流程

从你发出一句话到收到回复
中间到底发生了什么？