技术小白 / 零基础用户 友好

从你发出一句话到收到回复
中间到底发生了什么?

大语言模型就像一个读过海量书籍、文章、网页的「超级学生」。它不是真的「理解」语言,而是通过学习海量文本中词语与词语之间的关系和规律,掌握了「给定前文,下一个词最可能是什么」的能力。你可以把它想象成一个超级强大的「文字接龙高手」。

开始了解
ChatGPT(OpenAI) Claude(Anthropic) Gemini(Google) 文心一言(百度) 通义千问(阿里) 豆包(字节跳动)

什么是大语言模型(LLM)?

你可以把它想象成一个超级强大的「文字接龙高手」。

常见误解 vs 真相

大模型像人一样思考

大模型本质上是在做极其复杂的数学运算,通过概率预测下一个最合适的词。它没有意识、情感或真正的「理解」,但在行为上可以表现得像是在思考。

每次都会给出相同回答

大模型的输出具有随机性(受「温度」参数控制)。同样的问题问两次,可能得到不同但含义相近的回答,就像同一个人被问同一个问题也会用不同的话来回答一样。

大模型知道所有事情

大模型只学过训练数据中的内容,对训练截止日期之后的事情一无所知(除非接入了搜索工具)。而且它可能会「一本正经地胡说八道」(称为「幻觉」现象)。

大模型上网实时查资料

基础的大模型并不联网。它的知识来自训练时学到的内容。部分产品(如 ChatGPT、Claude)额外集成了搜索功能,才具备了联网能力。

完整流程:从打字到看到回复

把你和大模型对话的整个过程,拆解成 8 个阶段。

1

用户输入

你在聊天框里打了一句话

你在手机或电脑上的聊天界面中,输入了一段文字,比如「帮我写一首关于秋天的诗」,然后点击发送按钮。

类比:就像你给一位笔友写了一封信,把信投进了邮筒。

技术细节

你输入的这段文字,在技术上叫做 Prompt(提示词)

聊天界面(前端应用)负责收集你的输入,并将其打包成一个标准格式的「请求」。

除了你的文字,请求中还会附带一些额外信息,比如你之前的对话历史、你的偏好设置等。

你的文字会被包装成一个叫 API Request 的数据包,通常是 JSON 格式,里面包含你说的话、用哪个模型、一些控制参数等。

小贴士:Prompt 的质量直接影响回答质量。说得越清楚、越具体,回答就越好。就像问路说「附近有吃的吗」和「这附近 500 米内有没有评分 4 分以上的川菜馆」效果完全不同。

2

网络传输与服务端接收

你的消息飞向云端服务器

你的消息通过互联网,被发送到运行大模型的云端服务器上。这些服务器通常在大型数据中心里,配备了大量高性能 GPU(图形处理器,在这里用来做大量并行计算)。

类比:就像你的信从邮筒出发,经过邮政系统的分拣和运输,最终到达笔友手中。只不过这个过程发生在毫秒之间。

技术细节

前端通过 HTTPS 协议将请求发送到后端 API 服务器,确保数据在传输过程中是加密的。

大型服务通常有成千上万的用户同时在对话,所以有一个叫「负载均衡器」的系统来分配请求,确保每台服务器不会被压垮,就像餐厅的领位员把客人分配到不同的桌子。

服务器会先验证你的身份(你是否登录、是否有权限、是否是付费用户等),这叫「鉴权」。

大模型运行在 GPU 集群上。一个大模型可能需要几十甚至上百块 GPU 同时协作才能运行,因为模型太大了,一块 GPU 装不下。

小贴士:这就是为什么使用大模型需要联网——你的文字需要发送到远程服务器去处理,结果再传回来。模型并不在你的手机或电脑上运行(虽然也有一些小型模型可以在本地运行)。

3

预处理与上下文组装

把你的话翻译成模型能懂的语言

服务器收到你的消息后,不会直接交给模型。而是先进行一系列预处理:把你说的话和系统指令、对话历史、安全规则等组装在一起,形成一个完整的「上下文」。

类比:就像老师批改作文前,先看这个学生之前写过什么、有哪些批改标准,把背景信息都准备好。

3a · 系统提示词注入

在你的消息之前,系统会添加一段「系统提示词(System Prompt)」。这段话定义了模型的「角色」和「行为规范」,比如「你是一个有帮助的 AI 助手,你应该礼貌、准确地回答问题,不能生成有害内容」。

类比:就像公司给客服人员的工作手册,规定了什么该说、什么不该说、用什么语气。

3b · 对话历史拼接

系统会把你之前在这次对话中说过的话和模型的回复,按顺序拼接到一起。这样模型就能「记住」之前聊过什么,保持对话连贯。

类比:就像你和朋友聊天时,你们都记得之前说过什么,不需要每句话都从头解释背景。

重要提示:大模型其实没有真正的「记忆」。每次回复时,它都要重新阅读完整的对话历史。这就是为什么对话太长时可能会「忘记」早期的内容——因为它能处理的文本长度有限(称为「上下文窗口」,就像桌子大小有限,能摆的资料有限)。

3c · 分词(Tokenization)

计算机不认识汉字或英文单词,所以需要将文字切分成更小的单元,叫做 Token。一个 Token 可能是一个汉字、一个英文单词、或者一个词的一部分。

类比:就像把一句话拆成一块块拼图。模型需要先把文字拆成这种标准化的小块,才能进行后续的数学计算。

中文示例

「我喜欢吃苹果」

→ [我] [喜欢] [吃] [苹果]

中文通常一到两个字为一个 Token

英文示例

"I love eating apples"

→ [I] [ love] [ eating] [ app] [les]

英文一个单词通常是 1-2 个 Token,不常见的长词可能被拆成多个

Token 是大模型计费和能力的基本单位。当你看到「支持 128K 上下文」时,意思是模型最多能同时处理约 12.8 万个 Token(大概相当于一本 10 万字的书)。

4

模型推理

核心环节

大模型的大脑开始运转

Token 序列被送入模型,基于从海量数据中学到的「知识」来预测回复内容。这是计算量最大的环节。

类比:就像一位读过上亿本书的学者,在大脑中飞速检索知识、组织语言、构思回答——只不过「思考」实际上是海量的矩阵乘法。

4a · 词嵌入(Embedding)

每个 Token 被转换成一个高维向量(一长串数字)。这些数字编码了这个词的「含义」。意思相近的词,对应的向量在数学空间中距离更近。

类比:想象每个词都有一个「身份证」,上面不是一个编号,而是几千个数字。比如「国王」和「王后」的身份证上的数字很相似,而「国王」和「苹果」的数字差异很大。

国王 - 男人 + 女人 ≈ 王后

这说明模型学到了性别、身份等抽象概念之间的数学关系

4b · Transformer 架构处理

这是大模型最核心的技术架构。Token 向量进入由几十到上百层「Transformer 层」组成的神经网络,逐层处理和提炼信息。

其中最重要的创新是自注意力机制(Self-Attention)——它让模型在处理每个词时,能「注意到」句子中所有其他词,并判断哪些词与当前词的关系最密切。

类比:想象你在一个房间里听到很多人说话。你的注意力会自动聚焦到和你相关的对话上,忽略无关的背景噪音。自注意力机制就是让模型具备这种「选择性注意」的能力。

「小明把书还给了图书馆,因为已经读完了。」

→ 当模型处理「他」这个词时,自注意力机制会让它特别「注意」前面的「小明」,从而理解「他」指的是小明,而不是图书馆。

信息在这些层中像流水线一样逐步加工:

前几层(浅层)

识别基础语法结构、词性、简单的词组搭配

像先看清楚每个字怎么念、是名词还是动词

中间层

理解句子的完整含义、上下文关系、指代关系

像理解整句话在说什么、谁做了什么事

后几层(深层)

进行更抽象的推理、整合全局信息、做出最终判断

像综合考虑所有因素后,决定应该怎么回答

规模有多惊人?

  • GPT-4 等顶级模型据传有数千亿到万亿级别的参数(参数就是模型学到的「知识」的数量化表示)
  • 每个参数都是一个在训练中调整过的数字,共同决定了模型的行为
  • 打个比方:如果每个参数是一个突触连接,那大模型的突触数量已经接近一只老鼠大脑的连接数

4c · 逐词生成(自回归生成)

大模型不是一下子生成整个回答,而是一个 Token、一个 Token 地生成。每生成一个新 Token,它就被加入到已有序列中,作为生成下一个 Token 的依据。

第1步:模型读完你的问题,预测第一个回复 Token,比如「秋」

第2步:把「秋」加入序列,模型再预测下一个 Token,比如「风」

第3步:把「秋风」加入序列,预测下一个 Token,比如「送」

如此反复,直到生成一个「结束标记」或达到最大长度限制

... [结束]

类比:就像一个人在写作文,写完一个字后,根据已经写的内容和整体构思,决定下一个字写什么。每一步都受前面所有内容的影响。

这就是为什么大模型回复较长内容时,你能看到文字是一个一个蹦出来的(流式输出)——它确实就是一个词一个词地生成的。

4d · 采样策略

模型每一步不是直接选「最可能的那个词」,而是从多个候选词中按概率进行「采样」(随机抽取)。这个过程受几个关键参数控制:

Temperature(温度)范围通常 0 到 2

控制回答的「创造性」vs「确定性」

低温 0.1

回答非常确定、保守,每次回答差不多

适合事实性问答

就像一个严谨的学者

高温 1.5

回答更有创意、多样,但可能更不准确

适合创意写作

就像一个天马行空的诗人

Top-P(核采样):只从累积概率排名前 P% 的候选词中选择。比如 Top-P = 0.9 表示只考虑概率加起来达到 90% 的那些最可能的词,忽略剩余的极低概率选项。

类比:就像考试选择题,你排除掉明显不对的选项后,在剩下的合理选项中做选择。

Top-K:只从概率最高的 K 个候选词中选择。比如 Top-K = 50 表示只考虑最可能的 50 个词。

类比:就像从全班成绩前 50 名中选代表,后面的同学不在考虑范围内。

5

安全过滤与内容审核

回答出口前的安全检查站

生成的内容在返回前需经过安全检查,确保不包含有害、违法、不当内容。

类比:就像机场安检。行李(回答)在登机(发给你)之前,必须通过 X 光机(安全审核系统)。

三道防线

1. 训练阶段的对齐(RLHF / Constitutional AI)

在模型训练的后期,通过人类反馈(RLHF)或 AI 辅助反馈(如 Constitutional AI)来教模型「什么样的回答是好的、安全的」。这让模型在生成时就倾向于产生安全的内容。

类比:就像从小教育孩子什么该做什么不该做,是在源头上培养好习惯。

2. 输出过滤器

额外的分类模型会检查输出内容是否包含暴力、色情、歧视、个人隐私泄露等不当内容。如果触发了安全规则,回答可能被修改或拒绝。

类比:就像出版社的审稿编辑,在书稿出版前做最后一道把关。

3. 输入过滤器

同样地,你发送的消息也会被检查。如果包含试图诱导模型产生有害内容的「越狱」提示,系统会提前拦截。

类比:就像门卫在入口处检查来访者,防止可疑人员进入。

6

流式传输与返回

回答像流水一样送回你的屏幕

模型生成的 Token 不是全部生成完再一次性发给你,而是边生成边发送。每生成一个或几个 Token,就立即推送到你的设备上,这就是你看到文字一个个蹦出来的原因。

类比:就像直播而不是录播。不需要等整个视频录完才能看,实时传给你。

技术细节

通常使用 SSE(Server-Sent Events)WebSocket 技术。服务器持续推送数据流,浏览器实时接收并显示。

服务器返回的是 Token ID(数字),前端通过对应的「词表」把数字转回文字显示出来。这个过程叫解码(Decoding),速度非常快。

为什么要用流式传输?

  • 用户体验更好:不需要等待很长时间才能看到回复的第一个字
  • 感知延迟降低:虽然总生成时间可能一样,但用户几乎立即就能看到回复开始
  • 可以提前阅读:你可以在模型还在生成后面内容的同时,就开始阅读前面的回答
7

前端渲染与展示

文字出现在你的聊天窗口中

你使用的聊天应用收到返回的文字后,将其渲染成好看的格式显示在聊天界面中。

类比:就像报社收到记者的稿件后,排版编辑将其排成报纸版面,加上标题、配图、分栏,让读者看起来舒适。

Markdown 渲染

模型会用 **加粗**、- 列表、```代码块``` 等语法格式化回答,前端把标记转换成视觉样式。

代码高亮

如果回答包含代码,会用不同颜色标注关键词、字符串等,方便阅读。

交互功能

展示复制按钮、点赞/点踩反馈按钮、重新生成按钮等辅助功能。

LaTeX 渲染

如果回答包含数学公式,会渲染成漂亮的数学符号。

8

后续处理与反馈循环

对话不止于回答本身

对话完成后,系统还会在后台进行处理,为后续的服务提升做准备。

对话历史存储

你的对话记录会被保存,这样你下次打开应用时可以继续之前的对话。不同服务商对数据保留的政策不同。

用户反馈收集

当你点击「赞」或「踩」按钮时,这些反馈会被收集,用于后续改进模型。这是 RLHF 流程的一部分——真实用户的反馈帮助模型变得更好。

用量计量与计费

对于付费 API 用户,系统会统计本次对话消耗了多少 Token(输入 + 输出),按照对应的价格计费。不同模型的价格不同,通常越强大的模型越贵。

日志与监控

系统会记录请求的耗时、是否出错、用户满意度等指标,用于系统优化和问题排查。

深入了解

几个你可能好奇的问题

大模型是怎么训练出来的?

训练大模型就像培养一个学生,分为三个阶段:

1. 预训练(Pre-training)

让模型阅读互联网上的海量文本(几万亿个词),学习语言的基本规律。任务很简单:遮住下一个词,让模型来猜。猜对了就表扬,猜错了就调整。经过数万亿次的猜测和调整,模型就学会了语言的结构和知识。

类比:就像让一个孩子读了图书馆里的每一本书,虽然没有老师系统地教他,但他自然而然学到了语法、知识和推理能力。

这个阶段的计算成本极其昂贵,顶级模型可能需要花费数亿美元、数万块 GPU 训练几个月。

2. 指令微调(Instruction Fine-tuning / SFT)

预训练完的模型就像一个博学但不懂沟通的学者,它会续写文字但不擅长回答问题。这一阶段用大量「问题-高质量回答」的配对数据来训练模型,教它学会对话的方式。

类比:就像上了培训班,学习怎么把自己的知识用「回答用户问题」的方式表达出来。

3. 对齐(Alignment / RLHF)

通过人类反馈的强化学习,让模型的回答更有帮助、更安全、更符合人类的价值观和期望。人类评估员对模型的多个回答进行排名,模型根据排名学习什么样的回答是好的。

类比:就像实习期,有一个导师不断给你反馈,告诉你哪些做得好、哪些需要改进,帮你成为一个更好的「员工」。

什么是「上下文窗口」?为什么大模型会「忘事」?

上下文窗口(Context Window)是大模型一次能处理的最大文本长度,用 Token 数来衡量。就像你的办公桌大小有限,能同时摊开的文件数量有限。超出桌面的资料就无法查看。

GPT-3.5

4K

≈ 3,000 字

GPT-4 Turbo

128K

≈ 100,000 字

Claude 3.5

200K

≈ 150,000 字

当对话内容超过上下文窗口大小时,最早的对话会被「挤掉」,模型就好像「忘记」了前面的内容。这不是模型变笨了,而是它的「桌面」放不下了。

为什么大模型会「胡说八道」(幻觉现象)?

大模型的本质是「根据概率预测下一个最可能的词」,而不是「从数据库中查找事实」。当它遇到不确定的问题时,它不会说「我不知道」,而是倾向于生成一个「看起来合理」但可能完全错误的答案。

为什么会出现幻觉?

  • 模型学到的是「什么词经常出现在一起」的统计规律,而不是「事实」本身
  • 模型不具备验证信息真伪的能力
  • 训练数据中本身可能就包含错误信息

典型案例:

  • 编造一本不存在的学术论文,并附上逼真的作者和出版信息
  • 声称一个历史事件发生在错误的年份
  • 编造一个看起来正确但实际上有错的数学推导过程

应对方法:

  • 对重要信息交叉验证
  • 让模型引用来源,检查是否真实
  • 使用具有搜索能力的产品
  • 持「信任但要验证」的态度

大模型运行一次要花多少钱?

大模型的推理(运行)成本按 Token 计费,不同模型价格差异很大。

  • 模型大小:参数越多,需要的计算资源越多,成本越高
  • 输入 Token 数:你发送的文字越长(包括对话历史),成本越高
  • 输出 Token 数:生成的回答越长,成本越高
  • 通常输出 Token 比输入 Token 贵 2-4 倍,因为生成比理解需要更多计算

面向普通用户的产品通常采用订阅制(如每月 20 美元),不按 Token 单独计费,但可能有使用量上限。

什么是 RAG?大模型怎么获取新知识?

RAG = Retrieval-Augmented Generation(检索增强生成)

RAG 就像给大模型配了一个「图书管理员」。当用户提问时,系统先去知识库中检索相关文档,然后把检索到的内容连同用户的问题一起交给模型。这样模型就可以基于最新的、准确的资料来回答问题,而不仅仅依赖自己的「记忆」。

1用户提问「公司最新的报销政策是什么?」
2检索系统在公司知识库中搜索相关文档
3找到《2025年Q4报销政策》文档
4将文档内容 + 用户问题一起发给大模型
5大模型基于文档内容生成准确回答

大模型本身是一个「学识渊博但消息可能不是最新」的顾问,RAG 让它可以在回答前先查阅最新的资料库,确保回答的时效性和准确性。

减少幻觉
有据可查,减少编造
保持时效
可以回答训练之后的新问题
适配领域
可以对接企业内部的专属知识

关键术语速查表

一句话理解核心概念

LLM Large Language Model

大语言模型

通过学习海量文本数据,掌握了语言生成和理解能力的超大规模 AI 模型。

一句话:能跟你用自然语言聊天的 AI 背后的核心技术。

Token

文本最小单位

模型处理文本的最小单位,通常是一个字、一个词或一个词的一部分。

一句话:大模型的「文字积木块」,是它读和写的基本单位。

Prompt

提示词

你输入给模型的文字内容,包括问题、指令或任何你想让模型处理的文本。

一句话:你对 AI 说的话。

Transformer

核心架构

当前主流大模型采用的核心架构,由 Google 在 2017 年提出,核心创新是自注意力机制。

一句话:大模型的「大脑架构蓝图」。

Self-Attention

自注意力机制

让模型在处理每个词时,能自动关注到上下文中所有相关词语的技术。

一句话:让 AI 知道一句话里哪些词和哪些词关系密切的技术。

Embedding

词嵌入 / 向量表示

将文字转换为数字向量的技术,使意思相近的词在数学空间中距离更近。

一句话:把文字翻译成数字,让计算机能做数学计算。

Fine-tuning

微调

在预训练好的通用模型基础上,用特定领域或特定任务的数据进一步训练,让模型在该领域表现更好。

一句话:让「全科医生」变成「专科医生」的训练过程。

RLHF

基于人类反馈的强化学习

通过人类对模型回答的评价打分来训练模型,使其生成更符合人类期望的回答。

一句话:通过人类当「老师」打分来教 AI 什么是好回答。

Hallucination

幻觉

模型自信地生成看似合理但实际错误或完全虚构的内容。

一句话:AI 一本正经胡说八道。

Context Window

上下文窗口

模型在一次对话中能处理的最大 Token 数量。

一句话:AI 的「工作台大小」——决定它能同时记住多少对话内容。

Temperature

温度

控制模型输出随机性的参数。低温度产生更确定的回答,高温度产生更多样、更有创意的回答。

一句话:调节 AI 是「循规蹈矩」还是「天马行空」的旋钮。

API

应用程序编程接口

一套标准化的接口规范,让开发者可以通过代码调用大模型的能力,将其集成到自己的产品中。

一句话:让程序员在自己软件里使用大模型能力的「连接插座」。

RAG

检索增强生成

让模型在回答前先检索外部知识库,然后基于检索到的内容生成更准确的回答。

一句话:让 AI 先查资料再回答问题,而不是光靠记忆。

GPU

图形处理器

最初为图形渲染设计的处理器,由于擅长大规模并行计算,成为了训练和运行大模型的核心硬件。

一句话:大模型的「引擎」——没有它,大模型就跑不起来。

Inference

推理

已经训练好的模型接收用户输入并生成回答的过程。区别于「训练」,推理是模型的日常工作状态。

一句话:AI 「上班干活」回答你问题的过程。

Parameter

参数

模型中可学习的数字变量。参数数量通常代表了模型的规模和能力。现代大模型的参数量可达数千亿甚至万亿。

一句话:AI 学到的「知识」的数量化衡量,参数越多通常意味着「学问越大」。

Agent

智能体

在大模型基础上,赋予模型使用工具、执行多步骤任务、自主决策能力的系统。不再只是问答,而是能「做事」。

一句话:能自己思考、规划、使用工具完成复杂任务的 AI「员工」。

有趣的冷知识

关于大模型,你可能不知道的事

大模型不认识「图片」

纯语言模型只能处理文字。为了看懂图片,需要另一个模型先把图片「翻译」成数字描述,再交给语言模型理解。这种架构叫「多模态模型」。

训练数据量 = 几百万本书

GPT-3 训练数据约 45TB。打印出来约 9000 万本标准书籍,是美国国会图书馆的 2-3 倍。

碳排放量 = 五辆汽车一生

训练一个大型模型的碳排放,可能相当于五辆汽车整个寿命周期的总和。

最著名的论文标题

2017 年 Google 提出 Transformer 的论文叫《Attention Is All You Need》,已成 AI 领域最著名标题之一。

模型不知道自己是谁

大模型从训练数据中学到了关于自身的描述(比如「我是一个 AI 助手」),但它并没有真正的自我认知。如果你告诉它「你是一只猫」,它也能表演得惟妙惟肖——因为它在训练数据中读过很多关于猫的描写。

一张图看懂完整流程

1你输入文字
2消息发送到云端服务器
3系统组装完整上下文(系统提示 + 对话历史 + 你的消息)
4文字被切分成 Token
5Token 转换成数字向量(Embedding)
6向量进入 Transformer 神经网络(几十到上百层)
7自注意力机制分析词与词之间的关系
8逐层提取语义,从语法 → 含义 → 推理
9输出层预测下一个最可能的 Token
10根据温度等参数进行采样
11重复「预测下一个 Token」直到生成完毕
12安全系统审核生成的内容
13通过流式传输,边生成边返回给你
14前端渲染成漂亮的格式展示在聊天界面
你看到了回复!