04 — 大语言模型 LLM | AI 全栈学习指南

01 📈 从语言模型到大语言模型

语言模型（Language Model, LM）是 AI 的核心课题之一——它学习语言的统计规律，目标是预测下一个词。从简单的计数统计到拥有数千亿参数的神经网络，语言模型的发展是一段跨越 30 年的指数增长之旅。

1990s

N-gram 语言模型

基于马尔可夫假设，通过统计相邻 N 个词的共现概率来建模语言。

原理：P(w_n | w₁...w_n-1) ≈ P(w_n | w_n-N+1...w_n-1)
优点：简单高效，计算量小
缺点：数据稀疏严重，无法捕捉长距离依赖
代表：Google 最初的翻译系统基于 N-gram

2010

RNN 语言模型（RNN-LM）

循环神经网络通过隐状态传递历史信息，理论上可以捕捉任意长度的上下文。

关键创新：Mikolov et al. 提出 RNN-LM (2010)
优势：可以学习连续的词向量表示
瓶颈：梯度消失导致难以学习长距离依赖
演进：LSTM (1997)、GRU (2014) 部分缓解了梯度问题

2017

Transformer-LM

Transformer 架构（详见 PAGE 03）彻底取代了 RNN，基于自注意力机制实现并行计算。

里程碑：Vaswani et al., "Attention Is All You Need" (2017)
核心突破：完全并行训练、O(1) 距离的信息传递
直接结果：GPT、BERT 等预训练模型的出现

2018 → 2026

大语言模型（LLM）时代

当 Transformer 模型的参数量突破"大"的阈值后，涌现出前所未有的能力。

标志：GPT-1 (2018) → GPT-3 (2020) → GPT-4 (2023) → DeepSeek (2025)
范式转变：从"专门训练"到"通用预训练 + 适配"

🔍 什么是"大"？——三大维度的指数增长

一个语言模型之所以被称为"大"，并非仅仅因为参数多，而是三个维度的协同增长：

~1.17亿 → 1.8万亿+
参数规模 (GPT-1 → GPT-4 传闻)

5GB → 15TB+
训练数据 (Books → 互联网全部)

数 PF-days → 10万+ GPU
算力需求 (集群规模)

📊 Scaling Law（缩放定律）

2020 年，OpenAI 的 Kaplan 等人通过系统实验发现了一个简洁而惊人的规律：

神经语言模型的交叉熵损失 L(N, D, C) 是参数量 N、数据集大小 D 和计算量 C 的幂律函数，三者之间的关系高度可预测。 — Kaplan, J. et al. (2020). "Scaling Laws for Neural Language Models." arXiv:2001.08361

核心公式（简化）：L(N) ≈ (N_c / N)^α_N，其中 α_N ≈ 0.076
实践意义：给定计算预算，可以通过公式推算最优的参数量和数据量配比
Chinchilla Law (2022)：Hoffmann et al. 修正了 Kaplan 的结论——之前大多数模型参数过多、训练数据不足，最优比例约为 20 tokens/parameter
争议：2024 年起，部分研究（如 Llama 3）表明 Scaling Law 在某些能力上出现"收益递减"

02 🚀 GPT 系列演进

GPT（Generative Pre-trained Transformer）系列是 OpenAI 从 2018 年开始的旗舰项目，也是大语言模型时代最重要的里程碑之一。每一代 GPT 的推出，都在重新定义"AI 能做什么"的边界。

2018 · 6月

GPT-1 1.17 亿参数

论文："Improving Language Understanding by Generative Pre-Training" — Radford et al., OpenAI

核心思想：先在大量无标注文本上进行生成式预训练（Generative Pre-training），再在特定任务上微调（Fine-tuning）
架构：12 层 Transformer Decoder，768 维隐藏层
训练数据：BookCorpus（约 7,000 本书，5GB 文本）
关键贡献：首次证明生成式预训练 + 判别式微调可以在 NLP 任务上取得 SOTA
影响：开创了"预训练-微调"范式，奠定了后续所有 GPT 模型的基础

2019 · 2月

GPT-2 15 亿参数

论文："Language Models are Unsupervised Multitask Learners" — Radford et al., OpenAI

核心发现：足够大的语言模型在零样本（Zero-shot）条件下就能完成多种任务，无需微调
架构升级：48 层，1600 维隐藏层，25 个注意力头
训练数据：WebText（约 40GB，Reddit 高赞链接）
"太危险了"事件：OpenAI 以"可能被滥用于生成虚假信息"为由，分阶段发布模型（从 1.24 亿参数 → 7.74 亿 → 15 亿完整版），引发关于 AI 安全与开源的广泛讨论
能力展示：续写故事、翻译、问答、摘要——全部无需微调

2020 · 5月

GPT-3 1750 亿参数

论文："Language Models are Few-Shot Learners" — Brown et al., NeurIPS 2020

核心突破：Few-shot Learning 的涌现——仅需在提示中给出几个示例，模型就能理解任务并执行
架构：96 层，12288 维隐藏层，96 个注意力头
训练数据：混合数据集（Filtered Web、Books、Wikipedia 等，共 ~570GB tokens）
训练成本：估计约 460 万美元（2020 年价格），消耗 ~3.14 × 10²³ FLOPS
能力亮点：写代码、做数学、写论文、对话——在许多任务上接近人类水平
影响：验证了 Scaling Law 的有效性，催生了 Prompt Engineering 和 In-Context Learning 研究

2023 · 3月

GPT-4 多模态

论文："GPT-4 Technical Report" — OpenAI (2023)

核心升级：多模态——可以处理文本 + 图像输入
性能飞跃：在律师资格考试中得分超过 90% 的人类考生，各种基准测试上大幅领先 GPT-3.5
"iPhone 时刻"：OpenAI CEO Sam Altman 称 GPT-4 为"大语言模型的 iPhone 时刻"——标志着 AI 从"玩具"变成"工具"
参数量：官方未公布，传闻在 1.8 万亿级别（MoE 架构）
RLHF 对齐：通过大规模人类反馈强化学习显著提高了安全性和有用性
后续：GPT-4o (2024) 实现原生多模态（音频+视觉+文本统一），速度大幅提升

🔑 每一代的关键创新总结

模型	参数量	关键创新	历史意义
GPT-1	1.17 亿	生成式预训练 + 微调范式	开创"预训练→微调"路线
GPT-2	15 亿	无监督多任务学习	Zero-shot 能力首次验证
GPT-3	1750 亿	In-Context Few-Shot Learning	Scaling Law 实践验证，LLM 时代开端
GPT-4	未公开 (传闻 ~1.8T)	多模态 + RLHF 对齐	"AI 的 iPhone 时刻"

03 ⚖️ BERT vs GPT：两种路线

2018 年是 NLP 领域的"双峰年"：OpenAI 发布了 GPT-1（自回归解码器），Google 发布了 BERT（双向编码器）。两条路线各自代表了不同的设计哲学，深刻影响了后续几年的研究方向。

🔤 BERT（2018）

全称：Bidirectional Encoder Representations from Transformers

方向：双向编码器（Encoder-only）

同时看到左右两侧的上下文
使用 Masked Language Modeling (MLM) 预训练：随机遮盖 15% 的 token，让模型预测
使用 Next Sentence Prediction (NSP) 学习句子关系
擅长理解类任务：情感分析、NER、QA、文本分类
参数量：BERT-base 1.1 亿 / BERT-large 3.4 亿
2018 年横扫 11 项 NLP 基准

Devlin, J. et al. (2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." NAACL 2019

💬 GPT

全称：Generative Pre-trained Transformer

方向：自回归解码器（Decoder-only）

只能看到左侧（之前）的上下文
使用 自回归语言建模 预训练：预测下一个 token
天然适合生成类任务：文本续写、对话、翻译
通过规模Scaling 涌现出 Zero/Few-shot 能力
GPT-3 之后证明了"规模 + 解码器 = 万能"

Radford, A. et al. (2018/2019/2020). GPT-1/2/3 papers.

维度	BERT（编码器路线）	GPT（解码器路线）
架构	Transformer Encoder（双向）	Transformer Decoder（单向/自回归）
注意力	双向自注意力（Full Attention）	因果自注意力（Causal Attention）
预训练目标	MLM + NSP（完形填空）	预测下一个词（自回归）
擅长任务	理解类：分类、NER、QA	生成类：续写、对话、翻译
Scaling 趋势	收益递减（~1B 后瓶颈）	持续涌现新能力
代表模型	BERT、RoBERTa、ALBERT、DeBERTa	GPT 系列、LLaMA、Qwen、DeepSeek
当前主流	特定 NLP 任务、Embedding 模型	通用大模型（LLM）的主流选择

🔀 T5：统一路线

Google 在 2019 年提出了 T5（Text-to-Text Transfer Transformer），试图统一编码器和解码器路线。T5 将所有 NLP 任务统一为"文本到文本"的格式，使用完整的 Encoder-Decoder 架构。

关键思想：无论分类、翻译还是摘要，输入和输出都是文本
示例："翻译成英语：今天天气很好" → "The weather is nice today"
规模：T5-11B 拥有 110 亿参数
影响：启发了 FLAN、FLAN-T5 等指令微调方法

Raffel, C. et al. (2020). "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer." JMLR

2022 年之后，Decoder-only 架构成为 LLM 的绝对主流。几乎所有重要的大模型（GPT-4、Claude、LLaMA、Qwen、DeepSeek）都选择了纯解码器路线——因为事实证明，在足够大的规模下，生成能力比双向理解更有价值，且推理效率更高。

04 ⚙️ LLM 训练全流程

一个现代 LLM 的诞生，需要经历多个精心设计的阶段。从"什么都学"的预训练，到"学会听话"的指令微调，再到"变得安全有用"的对齐——每一步都是不可或缺的。

📚 预训练（Pre-training）~90% 算力

目标：在海量无标注文本上学习语言的统计规律和世界知识

数据来源：网页（Common Crawl）、书籍、Wikipedia、代码、论文等
数据规模：GPT-3 约 570GB tokens；Llama 3 约 15T tokens
学习方式：自监督——预测下一个 token（Next Token Prediction）
产出：一个具有广泛知识但"不会按指令行事"的基座模型（Base Model）
资源需求：数千 GPU、数周到数月、数百万美元级别

预训练模型就像一个读了整个互联网的"书呆子"——知道很多，但不太会和人交流。

🎯 指令微调（Supervised Fine-Tuning, SFT）~1% 算力

目标：教会模型遵循人类指令，以"指令-回复"的格式回答问题

数据：高质量的人工标注指令-回复对（instruction-response pairs），通常数万到数十万条
数据来源：人工编写、开源数据集（Alpaca、ShareGPT）、蒸馏
训练方式：标准监督学习（Supervised Learning），全参数微调或 LoRA
关键点：数据质量 > 数据数量——少量高质量 SFT 数据胜过大量低质量数据

🤝 RLHF（人类反馈强化学习）对齐

目标：让模型的输出更符合人类偏好——更有帮助、更诚实、更安全

步骤 3a：奖励模型训练
- 让模型对同一问题的多个回答进行排序（人类标注）
- 用排序数据训练一个奖励模型（Reward Model, RM），学会为回答打分
步骤 3b：PPO 优化
- 使用 PPO（Proximal Policy Optimization）算法，以 RM 的奖励为信号优化 LLM
- 同时加入 KL 散度惩罚，防止模型偏离 SFT 学到的行为太远
三 H 原则：Helpful（有用）、Honest（诚实）、Harmless（无害）

Ouyang, L. et al. (2022). "Training Language Models to Follow Instructions with Human Feedback." NeurIPS 2022 — InstructGPT / ChatGPT 的核心技术

🔄 DPO 等新方法简化

目标：用更简单的方式实现与 RLHF 相当的对齐效果

DPO（Direct Preference Optimization, 2023）：
- 跳过奖励模型和 PPO，直接用偏好数据优化策略
- 将 RLHF 的复杂流程简化为一步监督学习
- 数学上等价于 RLHF 但实现简单得多
RLAIF（RL from AI Feedback）：用 AI（如 GPT-4）代替人类标注偏好数据
KTO（Kahneman-Tversky Optimization, 2024）：只需要"好/坏"信号，不需要配对偏好数据
GRPO（Group Relative Policy Optimization）：DeepSeek-R1 使用的方法，无需 Critic 模型

💡 训练流程全景图

🌐 海量文本 → 预训练 → 基座模型 → 📝 指令数据 → SFT → 对话模型 → 👍 偏好数据 → RLHF/DPO → ✅ 对齐模型

05 🧠 大模型的关键能力

当模型的规模超过某个临界点后，会出现一些在小模型中完全不存在的"涌现能力"（Emergent Abilities）。这些能力并非被显式训练，而是在足够大的参数和数据中自然涌现出来的。

✨

涌现能力

当模型规模超过阈值后，突然获得之前没有的能力。如：GPT-3 在 175B 时突然具备 Few-Shot 学习能力。

Wei, J. et al. (2022). "Emergent Abilities of Large Language Models." Transactions on ML

📝

In-Context Learning

无需更新模型权重，仅通过提示中的示例就能学习新任务。包括 Zero-Shot（无示例）、One-Shot（一个示例）和 Few-Shot（少量示例）。

Brown, T. et al. (2020). GPT-3 paper.

🔗

Chain-of-Thought

在提示中引导模型"一步步思考"，显著提升复杂推理能力。如数学题、逻辑推理、多步规划等任务。

Wei, J. et al. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022

🌍

世界知识

预训练过程中从海量文本中吸收的广博知识：历史事实、科学原理、地理信息、编程知识、多语言等。

模型参数本质上是压缩后的"世界知识数据库"。

🔬 涌现能力的争议

2023 年，Schaeffer et al. 在论文"Are Emergent Abilities of Large Language Models a Mirage?"中提出了质疑：

涌现可能是度量选择的结果——如果用非线性指标（如精确匹配），小模型的表现会突然从 0 跳到非 0
如果换成对数概率或连续指标，同样的能力是平滑预测的，并不存在"突变点"
尽管如此，从实用角度看，大规模模型在复杂任务上确实展现出小模型无法企及的能力

Schaeffer, R. et al. (2023). "Are Emergent Abilities of Large Language Models a Mirage?" Nature

06 🏆 主流大模型对比

2024–2026 年，大语言模型迎来了前所未有的百花齐放。以下是目前最重要的几个模型家族：

GPT-4o

OpenAI

Claude 3.5

Anthropic

Gemini 2.0

Google

Qwen2.5

阿里云

DeepSeek-V3

DeepSeek

Llama 3

模型	发布方	参数量	上下文窗口	架构特点	开源
GPT-4o	OpenAI	未公开	128K	原生多模态（音频+视觉+文本），MoE 架构	闭源
Claude 3.5 Sonnet	Anthropic	未公开	200K	Constitutional AI (CAI) 对齐，长上下文理解强	闭源
Gemini 2.0	Google	未公开	1M–2M	原生多模态，超长上下文，Google 生态集成	闭源
Qwen2.5-72B	阿里云	72B	128K	Dense 架构，中英双语强，多模态版本 Qwen-VL	开源
DeepSeek-V3	DeepSeek	671B MoE	128K	MoE 架构（37B 激活），极致性价比，训练成本仅 ~557 万美元	开源
Llama 3.1-405B	Meta	405B	128K	最大的开源 Dense 模型，社区生态最丰富	开源

07 🔓 开源 vs 闭源

大模型的"开源"定义并不像传统软件那么简单。实际上，大多数所谓"开源"大模型更接近于"开放权重"（Open Weights）——你可以使用模型权重，但训练数据、训练代码通常不公开。尽管如此，这些开放模型仍然极大地推动了 AI 的民主化进程。

🔓 开源/开放权重

Llama 系列（Meta）—— 2023 年 Llama 2 首次以商用友好协议发布，引爆开源社区
Qwen 系列（阿里云）—— 中英双语表现优异，多规格覆盖（0.5B–72B）
DeepSeek 系列（深度求索）—— 极致性价比，MoE 架构引领方向
Mistral 系列（Mistral AI）—— 欧洲代表，高效 MoE 设计
Yi 系列（零一万物）—— 中文生态重要力量

优势可本地部署、可微调、数据安全、成本可控

🔒 闭源 API

GPT-4o / o1（OpenAI）—— 能力最强，生态最完善
Claude 3.5（Anthropic）—— 编码和写作能力突出，长上下文
Gemini 2.0（Google）—— 超长上下文，与 Google 生态深度集成

优势开箱即用、持续更新、最佳能力、省心省力

🖥️ 本地部署方案

开源模型最大的优势之一就是可以在本地硬件上运行，完全控制数据隐私：

Ollama

最易用的本地推理工具。一行命令下载运行模型：


                        ollama run qwen2.5:7b

                        ollama run deepseek-r1:14b

支持 Mac/Win/Linux，自动 GPU 加速，提供 API 兼容 OpenAI 格式

vLLM

高性能推理引擎，专为生产环境设计：


                        pip install vllm

                        vllm serve Qwen/Qwen2.5-7B

PagedAttention、连续批处理、多 GPU 支持，吞吐量比原生 HuggingFace 高 10-24 倍

llama.cpp / GGUF：纯 CPU 推理，支持量化（Q4_K_M 等），适合笔记本和边缘设备
LM Studio：图形界面，内置模型库，适合初学者
量化格式：FP16 → INT8 → INT4（GGUF/GPTQ/AWQ），在几乎不损失质量的情况下将显存需求减半至 1/4

📖 本章参考来源

Radford, A. et al. (2018). "Improving Language Understanding by Generative Pre-Training." OpenAI. GPT-1
Radford, A. et al. (2019). "Language Models are Unsupervised Multitask Learners." OpenAI. GPT-2
Brown, T. et al. (2020). "Language Models are Few-Shot Learners." NeurIPS 2020. GPT-3
OpenAI (2023). "GPT-4 Technical Report." arXiv:2303.08774
Devlin, J. et al. (2019). "BERT: Pre-training of Deep Bidirectional Transformers." NAACL 2019
Raffel, C. et al. (2020). "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer." JMLR. T5
Kaplan, J. et al. (2020). "Scaling Laws for Neural Language Models." arXiv:2001.08361
Hoffmann, J. et al. (2022). "Training Compute-Optimal Large Language Models." arXiv:2203.15556. Chinchilla
Ouyang, L. et al. (2022). "Training Language Models to Follow Instructions with Human Feedback." NeurIPS 2022. InstructGPT
Rafailov, R. et al. (2023). "Direct Preference Optimization: Your Language Model is Secretly a Reward Model." NeurIPS 2023. DPO
Wei, J. et al. (2022). "Emergent Abilities of Large Language Models." Transactions on ML
Wei, J. et al. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022
Schaeffer, R. et al. (2023). "Are Emergent Abilities of Large Language Models a Mirage?" Nature
Vaswani, A. et al. (2017). "Attention Is All You Need." NeurIPS 2017. Transformer

💬 大语言模型 LLM