大语言模型就像一个读过海量书籍、文章、网页的「超级学生」。它不是真的「理解」语言,而是通过学习海量文本中词语与词语之间的关系和规律,掌握了「给定前文,下一个词最可能是什么」的能力。你可以把它想象成一个超级强大的「文字接龙高手」。
开始了解你可以把它想象成一个超级强大的「文字接龙高手」。
大模型像人一样思考
大模型本质上是在做极其复杂的数学运算,通过概率预测下一个最合适的词。它没有意识、情感或真正的「理解」,但在行为上可以表现得像是在思考。
每次都会给出相同回答
大模型的输出具有随机性(受「温度」参数控制)。同样的问题问两次,可能得到不同但含义相近的回答,就像同一个人被问同一个问题也会用不同的话来回答一样。
大模型知道所有事情
大模型只学过训练数据中的内容,对训练截止日期之后的事情一无所知(除非接入了搜索工具)。而且它可能会「一本正经地胡说八道」(称为「幻觉」现象)。
大模型上网实时查资料
基础的大模型并不联网。它的知识来自训练时学到的内容。部分产品(如 ChatGPT、Claude)额外集成了搜索功能,才具备了联网能力。
把你和大模型对话的整个过程,拆解成 8 个阶段。
你在聊天框里打了一句话
你在手机或电脑上的聊天界面中,输入了一段文字,比如「帮我写一首关于秋天的诗」,然后点击发送按钮。
类比:就像你给一位笔友写了一封信,把信投进了邮筒。
你输入的这段文字,在技术上叫做 Prompt(提示词)。
聊天界面(前端应用)负责收集你的输入,并将其打包成一个标准格式的「请求」。
除了你的文字,请求中还会附带一些额外信息,比如你之前的对话历史、你的偏好设置等。
你的文字会被包装成一个叫 API Request 的数据包,通常是 JSON 格式,里面包含你说的话、用哪个模型、一些控制参数等。
小贴士:Prompt 的质量直接影响回答质量。说得越清楚、越具体,回答就越好。就像问路说「附近有吃的吗」和「这附近 500 米内有没有评分 4 分以上的川菜馆」效果完全不同。
你的消息飞向云端服务器
你的消息通过互联网,被发送到运行大模型的云端服务器上。这些服务器通常在大型数据中心里,配备了大量高性能 GPU(图形处理器,在这里用来做大量并行计算)。
类比:就像你的信从邮筒出发,经过邮政系统的分拣和运输,最终到达笔友手中。只不过这个过程发生在毫秒之间。
前端通过 HTTPS 协议将请求发送到后端 API 服务器,确保数据在传输过程中是加密的。
大型服务通常有成千上万的用户同时在对话,所以有一个叫「负载均衡器」的系统来分配请求,确保每台服务器不会被压垮,就像餐厅的领位员把客人分配到不同的桌子。
服务器会先验证你的身份(你是否登录、是否有权限、是否是付费用户等),这叫「鉴权」。
大模型运行在 GPU 集群上。一个大模型可能需要几十甚至上百块 GPU 同时协作才能运行,因为模型太大了,一块 GPU 装不下。
小贴士:这就是为什么使用大模型需要联网——你的文字需要发送到远程服务器去处理,结果再传回来。模型并不在你的手机或电脑上运行(虽然也有一些小型模型可以在本地运行)。
把你的话翻译成模型能懂的语言
服务器收到你的消息后,不会直接交给模型。而是先进行一系列预处理:把你说的话和系统指令、对话历史、安全规则等组装在一起,形成一个完整的「上下文」。
类比:就像老师批改作文前,先看这个学生之前写过什么、有哪些批改标准,把背景信息都准备好。
在你的消息之前,系统会添加一段「系统提示词(System Prompt)」。这段话定义了模型的「角色」和「行为规范」,比如「你是一个有帮助的 AI 助手,你应该礼貌、准确地回答问题,不能生成有害内容」。
类比:就像公司给客服人员的工作手册,规定了什么该说、什么不该说、用什么语气。
系统会把你之前在这次对话中说过的话和模型的回复,按顺序拼接到一起。这样模型就能「记住」之前聊过什么,保持对话连贯。
类比:就像你和朋友聊天时,你们都记得之前说过什么,不需要每句话都从头解释背景。
重要提示:大模型其实没有真正的「记忆」。每次回复时,它都要重新阅读完整的对话历史。这就是为什么对话太长时可能会「忘记」早期的内容——因为它能处理的文本长度有限(称为「上下文窗口」,就像桌子大小有限,能摆的资料有限)。
计算机不认识汉字或英文单词,所以需要将文字切分成更小的单元,叫做 Token。一个 Token 可能是一个汉字、一个英文单词、或者一个词的一部分。
类比:就像把一句话拆成一块块拼图。模型需要先把文字拆成这种标准化的小块,才能进行后续的数学计算。
中文示例
「我喜欢吃苹果」
→ [我] [喜欢] [吃] [苹果]
中文通常一到两个字为一个 Token
英文示例
"I love eating apples"
→ [I] [ love] [ eating] [ app] [les]
英文一个单词通常是 1-2 个 Token,不常见的长词可能被拆成多个
Token 是大模型计费和能力的基本单位。当你看到「支持 128K 上下文」时,意思是模型最多能同时处理约 12.8 万个 Token(大概相当于一本 10 万字的书)。
大模型的大脑开始运转
Token 序列被送入模型,基于从海量数据中学到的「知识」来预测回复内容。这是计算量最大的环节。
类比:就像一位读过上亿本书的学者,在大脑中飞速检索知识、组织语言、构思回答——只不过「思考」实际上是海量的矩阵乘法。
每个 Token 被转换成一个高维向量(一长串数字)。这些数字编码了这个词的「含义」。意思相近的词,对应的向量在数学空间中距离更近。
类比:想象每个词都有一个「身份证」,上面不是一个编号,而是几千个数字。比如「国王」和「王后」的身份证上的数字很相似,而「国王」和「苹果」的数字差异很大。
国王 - 男人 + 女人 ≈ 王后
这说明模型学到了性别、身份等抽象概念之间的数学关系
这是大模型最核心的技术架构。Token 向量进入由几十到上百层「Transformer 层」组成的神经网络,逐层处理和提炼信息。
其中最重要的创新是自注意力机制(Self-Attention)——它让模型在处理每个词时,能「注意到」句子中所有其他词,并判断哪些词与当前词的关系最密切。
类比:想象你在一个房间里听到很多人说话。你的注意力会自动聚焦到和你相关的对话上,忽略无关的背景噪音。自注意力机制就是让模型具备这种「选择性注意」的能力。
「小明把书还给了图书馆,因为他已经读完了。」
→ 当模型处理「他」这个词时,自注意力机制会让它特别「注意」前面的「小明」,从而理解「他」指的是小明,而不是图书馆。
信息在这些层中像流水线一样逐步加工:
前几层(浅层)
识别基础语法结构、词性、简单的词组搭配
像先看清楚每个字怎么念、是名词还是动词
中间层
理解句子的完整含义、上下文关系、指代关系
像理解整句话在说什么、谁做了什么事
后几层(深层)
进行更抽象的推理、整合全局信息、做出最终判断
像综合考虑所有因素后,决定应该怎么回答
规模有多惊人?
大模型不是一下子生成整个回答,而是一个 Token、一个 Token 地生成。每生成一个新 Token,它就被加入到已有序列中,作为生成下一个 Token 的依据。
第1步:模型读完你的问题,预测第一个回复 Token,比如「秋」
第2步:把「秋」加入序列,模型再预测下一个 Token,比如「风」
第3步:把「秋风」加入序列,预测下一个 Token,比如「送」
如此反复,直到生成一个「结束标记」或达到最大长度限制
类比:就像一个人在写作文,写完一个字后,根据已经写的内容和整体构思,决定下一个字写什么。每一步都受前面所有内容的影响。
这就是为什么大模型回复较长内容时,你能看到文字是一个一个蹦出来的(流式输出)——它确实就是一个词一个词地生成的。
模型每一步不是直接选「最可能的那个词」,而是从多个候选词中按概率进行「采样」(随机抽取)。这个过程受几个关键参数控制:
Temperature(温度)范围通常 0 到 2
控制回答的「创造性」vs「确定性」
低温 0.1
回答非常确定、保守,每次回答差不多
适合事实性问答
就像一个严谨的学者
高温 1.5
回答更有创意、多样,但可能更不准确
适合创意写作
就像一个天马行空的诗人
Top-P(核采样):只从累积概率排名前 P% 的候选词中选择。比如 Top-P = 0.9 表示只考虑概率加起来达到 90% 的那些最可能的词,忽略剩余的极低概率选项。
类比:就像考试选择题,你排除掉明显不对的选项后,在剩下的合理选项中做选择。
Top-K:只从概率最高的 K 个候选词中选择。比如 Top-K = 50 表示只考虑最可能的 50 个词。
类比:就像从全班成绩前 50 名中选代表,后面的同学不在考虑范围内。
回答出口前的安全检查站
生成的内容在返回前需经过安全检查,确保不包含有害、违法、不当内容。
类比:就像机场安检。行李(回答)在登机(发给你)之前,必须通过 X 光机(安全审核系统)。
1. 训练阶段的对齐(RLHF / Constitutional AI)
在模型训练的后期,通过人类反馈(RLHF)或 AI 辅助反馈(如 Constitutional AI)来教模型「什么样的回答是好的、安全的」。这让模型在生成时就倾向于产生安全的内容。
类比:就像从小教育孩子什么该做什么不该做,是在源头上培养好习惯。
2. 输出过滤器
额外的分类模型会检查输出内容是否包含暴力、色情、歧视、个人隐私泄露等不当内容。如果触发了安全规则,回答可能被修改或拒绝。
类比:就像出版社的审稿编辑,在书稿出版前做最后一道把关。
3. 输入过滤器
同样地,你发送的消息也会被检查。如果包含试图诱导模型产生有害内容的「越狱」提示,系统会提前拦截。
类比:就像门卫在入口处检查来访者,防止可疑人员进入。
回答像流水一样送回你的屏幕
模型生成的 Token 不是全部生成完再一次性发给你,而是边生成边发送。每生成一个或几个 Token,就立即推送到你的设备上,这就是你看到文字一个个蹦出来的原因。
类比:就像直播而不是录播。不需要等整个视频录完才能看,实时传给你。
通常使用 SSE(Server-Sent Events)或 WebSocket 技术。服务器持续推送数据流,浏览器实时接收并显示。
服务器返回的是 Token ID(数字),前端通过对应的「词表」把数字转回文字显示出来。这个过程叫解码(Decoding),速度非常快。
为什么要用流式传输?
文字出现在你的聊天窗口中
你使用的聊天应用收到返回的文字后,将其渲染成好看的格式显示在聊天界面中。
类比:就像报社收到记者的稿件后,排版编辑将其排成报纸版面,加上标题、配图、分栏,让读者看起来舒适。
Markdown 渲染
模型会用 **加粗**、- 列表、```代码块``` 等语法格式化回答,前端把标记转换成视觉样式。
代码高亮
如果回答包含代码,会用不同颜色标注关键词、字符串等,方便阅读。
交互功能
展示复制按钮、点赞/点踩反馈按钮、重新生成按钮等辅助功能。
LaTeX 渲染
如果回答包含数学公式,会渲染成漂亮的数学符号。
对话不止于回答本身
对话完成后,系统还会在后台进行处理,为后续的服务提升做准备。
对话历史存储
你的对话记录会被保存,这样你下次打开应用时可以继续之前的对话。不同服务商对数据保留的政策不同。
用户反馈收集
当你点击「赞」或「踩」按钮时,这些反馈会被收集,用于后续改进模型。这是 RLHF 流程的一部分——真实用户的反馈帮助模型变得更好。
用量计量与计费
对于付费 API 用户,系统会统计本次对话消耗了多少 Token(输入 + 输出),按照对应的价格计费。不同模型的价格不同,通常越强大的模型越贵。
日志与监控
系统会记录请求的耗时、是否出错、用户满意度等指标,用于系统优化和问题排查。
几个你可能好奇的问题
训练大模型就像培养一个学生,分为三个阶段:
让模型阅读互联网上的海量文本(几万亿个词),学习语言的基本规律。任务很简单:遮住下一个词,让模型来猜。猜对了就表扬,猜错了就调整。经过数万亿次的猜测和调整,模型就学会了语言的结构和知识。
类比:就像让一个孩子读了图书馆里的每一本书,虽然没有老师系统地教他,但他自然而然学到了语法、知识和推理能力。
这个阶段的计算成本极其昂贵,顶级模型可能需要花费数亿美元、数万块 GPU 训练几个月。
预训练完的模型就像一个博学但不懂沟通的学者,它会续写文字但不擅长回答问题。这一阶段用大量「问题-高质量回答」的配对数据来训练模型,教它学会对话的方式。
类比:就像上了培训班,学习怎么把自己的知识用「回答用户问题」的方式表达出来。
通过人类反馈的强化学习,让模型的回答更有帮助、更安全、更符合人类的价值观和期望。人类评估员对模型的多个回答进行排名,模型根据排名学习什么样的回答是好的。
类比:就像实习期,有一个导师不断给你反馈,告诉你哪些做得好、哪些需要改进,帮你成为一个更好的「员工」。
上下文窗口(Context Window)是大模型一次能处理的最大文本长度,用 Token 数来衡量。就像你的办公桌大小有限,能同时摊开的文件数量有限。超出桌面的资料就无法查看。
GPT-3.5
4K
≈ 3,000 字
GPT-4 Turbo
128K
≈ 100,000 字
Claude 3.5
200K
≈ 150,000 字
当对话内容超过上下文窗口大小时,最早的对话会被「挤掉」,模型就好像「忘记」了前面的内容。这不是模型变笨了,而是它的「桌面」放不下了。
大模型的本质是「根据概率预测下一个最可能的词」,而不是「从数据库中查找事实」。当它遇到不确定的问题时,它不会说「我不知道」,而是倾向于生成一个「看起来合理」但可能完全错误的答案。
为什么会出现幻觉?
典型案例:
应对方法:
大模型的推理(运行)成本按 Token 计费,不同模型价格差异很大。
面向普通用户的产品通常采用订阅制(如每月 20 美元),不按 Token 单独计费,但可能有使用量上限。
RAG = Retrieval-Augmented Generation(检索增强生成)
RAG 就像给大模型配了一个「图书管理员」。当用户提问时,系统先去知识库中检索相关文档,然后把检索到的内容连同用户的问题一起交给模型。这样模型就可以基于最新的、准确的资料来回答问题,而不仅仅依赖自己的「记忆」。
大模型本身是一个「学识渊博但消息可能不是最新」的顾问,RAG 让它可以在回答前先查阅最新的资料库,确保回答的时效性和准确性。
一句话理解核心概念
大语言模型
通过学习海量文本数据,掌握了语言生成和理解能力的超大规模 AI 模型。
一句话:能跟你用自然语言聊天的 AI 背后的核心技术。
文本最小单位
模型处理文本的最小单位,通常是一个字、一个词或一个词的一部分。
一句话:大模型的「文字积木块」,是它读和写的基本单位。
提示词
你输入给模型的文字内容,包括问题、指令或任何你想让模型处理的文本。
一句话:你对 AI 说的话。
核心架构
当前主流大模型采用的核心架构,由 Google 在 2017 年提出,核心创新是自注意力机制。
一句话:大模型的「大脑架构蓝图」。
自注意力机制
让模型在处理每个词时,能自动关注到上下文中所有相关词语的技术。
一句话:让 AI 知道一句话里哪些词和哪些词关系密切的技术。
词嵌入 / 向量表示
将文字转换为数字向量的技术,使意思相近的词在数学空间中距离更近。
一句话:把文字翻译成数字,让计算机能做数学计算。
微调
在预训练好的通用模型基础上,用特定领域或特定任务的数据进一步训练,让模型在该领域表现更好。
一句话:让「全科医生」变成「专科医生」的训练过程。
基于人类反馈的强化学习
通过人类对模型回答的评价打分来训练模型,使其生成更符合人类期望的回答。
一句话:通过人类当「老师」打分来教 AI 什么是好回答。
幻觉
模型自信地生成看似合理但实际错误或完全虚构的内容。
一句话:AI 一本正经胡说八道。
上下文窗口
模型在一次对话中能处理的最大 Token 数量。
一句话:AI 的「工作台大小」——决定它能同时记住多少对话内容。
温度
控制模型输出随机性的参数。低温度产生更确定的回答,高温度产生更多样、更有创意的回答。
一句话:调节 AI 是「循规蹈矩」还是「天马行空」的旋钮。
应用程序编程接口
一套标准化的接口规范,让开发者可以通过代码调用大模型的能力,将其集成到自己的产品中。
一句话:让程序员在自己软件里使用大模型能力的「连接插座」。
检索增强生成
让模型在回答前先检索外部知识库,然后基于检索到的内容生成更准确的回答。
一句话:让 AI 先查资料再回答问题,而不是光靠记忆。
图形处理器
最初为图形渲染设计的处理器,由于擅长大规模并行计算,成为了训练和运行大模型的核心硬件。
一句话:大模型的「引擎」——没有它,大模型就跑不起来。
推理
已经训练好的模型接收用户输入并生成回答的过程。区别于「训练」,推理是模型的日常工作状态。
一句话:AI 「上班干活」回答你问题的过程。
参数
模型中可学习的数字变量。参数数量通常代表了模型的规模和能力。现代大模型的参数量可达数千亿甚至万亿。
一句话:AI 学到的「知识」的数量化衡量,参数越多通常意味着「学问越大」。
智能体
在大模型基础上,赋予模型使用工具、执行多步骤任务、自主决策能力的系统。不再只是问答,而是能「做事」。
一句话:能自己思考、规划、使用工具完成复杂任务的 AI「员工」。
关于大模型,你可能不知道的事
纯语言模型只能处理文字。为了看懂图片,需要另一个模型先把图片「翻译」成数字描述,再交给语言模型理解。这种架构叫「多模态模型」。
GPT-3 训练数据约 45TB。打印出来约 9000 万本标准书籍,是美国国会图书馆的 2-3 倍。
训练一个大型模型的碳排放,可能相当于五辆汽车整个寿命周期的总和。
2017 年 Google 提出 Transformer 的论文叫《Attention Is All You Need》,已成 AI 领域最著名标题之一。
大模型从训练数据中学到了关于自身的描述(比如「我是一个 AI 助手」),但它并没有真正的自我认知。如果你告诉它「你是一只猫」,它也能表演得惟妙惟肖——因为它在训练数据中读过很多关于猫的描写。