从 GPT-1 到 GPT-4,从 N-gram 到 Transformer,
深入理解推动 AI 革命的核心技术——大语言模型的演进、训练与能力
语言模型(Language Model, LM)是 AI 的核心课题之一——它学习语言的统计规律,目标是预测下一个词。从简单的计数统计到拥有数千亿参数的神经网络,语言模型的发展是一段跨越 30 年的指数增长之旅。
基于马尔可夫假设,通过统计相邻 N 个词的共现概率来建模语言。
循环神经网络通过隐状态传递历史信息,理论上可以捕捉任意长度的上下文。
Transformer 架构(详见 PAGE 03)彻底取代了 RNN,基于自注意力机制实现并行计算。
当 Transformer 模型的参数量突破"大"的阈值后,涌现出前所未有的能力。
一个语言模型之所以被称为"大",并非仅仅因为参数多,而是三个维度的协同增长:
2020 年,OpenAI 的 Kaplan 等人通过系统实验发现了一个简洁而惊人的规律:
神经语言模型的交叉熵损失 L(N, D, C) 是参数量 N、数据集大小 D 和计算量 C 的幂律函数,三者之间的关系高度可预测。 — Kaplan, J. et al. (2020). "Scaling Laws for Neural Language Models." arXiv:2001.08361
L(N) ≈ (Nc / N)αN,其中 αN ≈ 0.076GPT(Generative Pre-trained Transformer)系列是 OpenAI 从 2018 年开始的旗舰项目,也是大语言模型时代最重要的里程碑之一。每一代 GPT 的推出,都在重新定义"AI 能做什么"的边界。
论文:"Improving Language Understanding by Generative Pre-Training" — Radford et al., OpenAI
论文:"Language Models are Unsupervised Multitask Learners" — Radford et al., OpenAI
论文:"Language Models are Few-Shot Learners" — Brown et al., NeurIPS 2020
论文:"GPT-4 Technical Report" — OpenAI (2023)
| 模型 | 参数量 | 关键创新 | 历史意义 |
|---|---|---|---|
| GPT-1 | 1.17 亿 | 生成式预训练 + 微调范式 | 开创"预训练→微调"路线 |
| GPT-2 | 15 亿 | 无监督多任务学习 | Zero-shot 能力首次验证 |
| GPT-3 | 1750 亿 | In-Context Few-Shot Learning | Scaling Law 实践验证,LLM 时代开端 |
| GPT-4 | 未公开 (传闻 ~1.8T) | 多模态 + RLHF 对齐 | "AI 的 iPhone 时刻" |
2018 年是 NLP 领域的"双峰年":OpenAI 发布了 GPT-1(自回归解码器),Google 发布了 BERT(双向编码器)。两条路线各自代表了不同的设计哲学,深刻影响了后续几年的研究方向。
全称:Bidirectional Encoder Representations from Transformers
方向:双向编码器(Encoder-only)
Devlin, J. et al. (2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." NAACL 2019
全称:Generative Pre-trained Transformer
方向:自回归解码器(Decoder-only)
Radford, A. et al. (2018/2019/2020). GPT-1/2/3 papers.
| 维度 | BERT(编码器路线) | GPT(解码器路线) |
|---|---|---|
| 架构 | Transformer Encoder(双向) | Transformer Decoder(单向/自回归) |
| 注意力 | 双向自注意力(Full Attention) | 因果自注意力(Causal Attention) |
| 预训练目标 | MLM + NSP(完形填空) | 预测下一个词(自回归) |
| 擅长任务 | 理解类:分类、NER、QA | 生成类:续写、对话、翻译 |
| Scaling 趋势 | 收益递减(~1B 后瓶颈) | 持续涌现新能力 |
| 代表模型 | BERT、RoBERTa、ALBERT、DeBERTa | GPT 系列、LLaMA、Qwen、DeepSeek |
| 当前主流 | 特定 NLP 任务、Embedding 模型 | 通用大模型(LLM)的主流选择 |
Google 在 2019 年提出了 T5(Text-to-Text Transfer Transformer),试图统一编码器和解码器路线。T5 将所有 NLP 任务统一为"文本到文本"的格式,使用完整的 Encoder-Decoder 架构。
Raffel, C. et al. (2020). "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer." JMLR
2022 年之后,Decoder-only 架构成为 LLM 的绝对主流。几乎所有重要的大模型(GPT-4、Claude、LLaMA、Qwen、DeepSeek)都选择了纯解码器路线——因为事实证明,在足够大的规模下,生成能力比双向理解更有价值,且推理效率更高。
一个现代 LLM 的诞生,需要经历多个精心设计的阶段。从"什么都学"的预训练,到"学会听话"的指令微调,再到"变得安全有用"的对齐——每一步都是不可或缺的。
目标:在海量无标注文本上学习语言的统计规律和世界知识
预训练模型就像一个读了整个互联网的"书呆子"——知道很多,但不太会和人交流。
目标:教会模型遵循人类指令,以"指令-回复"的格式回答问题
目标:让模型的输出更符合人类偏好——更有帮助、更诚实、更安全
Ouyang, L. et al. (2022). "Training Language Models to Follow Instructions with Human Feedback." NeurIPS 2022 — InstructGPT / ChatGPT 的核心技术
目标:用更简单的方式实现与 RLHF 相当的对齐效果
🌐 海量文本 → 预训练 → 基座模型 → 📝 指令数据 → SFT → 对话模型 → 👍 偏好数据 → RLHF/DPO → ✅ 对齐模型
当模型的规模超过某个临界点后,会出现一些在小模型中完全不存在的"涌现能力"(Emergent Abilities)。这些能力并非被显式训练,而是在足够大的参数和数据中自然涌现出来的。
当模型规模超过阈值后,突然获得之前没有的能力。如:GPT-3 在 175B 时突然具备 Few-Shot 学习能力。
Wei, J. et al. (2022). "Emergent Abilities of Large Language Models." Transactions on ML
无需更新模型权重,仅通过提示中的示例就能学习新任务。包括 Zero-Shot(无示例)、One-Shot(一个示例)和 Few-Shot(少量示例)。
Brown, T. et al. (2020). GPT-3 paper.
在提示中引导模型"一步步思考",显著提升复杂推理能力。如数学题、逻辑推理、多步规划等任务。
Wei, J. et al. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022
预训练过程中从海量文本中吸收的广博知识:历史事实、科学原理、地理信息、编程知识、多语言等。
模型参数本质上是压缩后的"世界知识数据库"。
2023 年,Schaeffer et al. 在论文"Are Emergent Abilities of Large Language Models a Mirage?"中提出了质疑:
Schaeffer, R. et al. (2023). "Are Emergent Abilities of Large Language Models a Mirage?" Nature
2024–2026 年,大语言模型迎来了前所未有的百花齐放。以下是目前最重要的几个模型家族:
| 模型 | 发布方 | 参数量 | 上下文窗口 | 架构特点 | 开源 |
|---|---|---|---|---|---|
| GPT-4o | OpenAI | 未公开 | 128K | 原生多模态(音频+视觉+文本),MoE 架构 | 闭源 |
| Claude 3.5 Sonnet | Anthropic | 未公开 | 200K | Constitutional AI (CAI) 对齐,长上下文理解强 | 闭源 |
| Gemini 2.0 | 未公开 | 1M–2M | 原生多模态,超长上下文,Google 生态集成 | 闭源 | |
| Qwen2.5-72B | 阿里云 | 72B | 128K | Dense 架构,中英双语强,多模态版本 Qwen-VL | 开源 |
| DeepSeek-V3 | DeepSeek | 671B MoE | 128K | MoE 架构(37B 激活),极致性价比,训练成本仅 ~557 万美元 | 开源 |
| Llama 3.1-405B | Meta | 405B | 128K | 最大的开源 Dense 模型,社区生态最丰富 | 开源 |
大模型的"开源"定义并不像传统软件那么简单。实际上,大多数所谓"开源"大模型更接近于"开放权重"(Open Weights)——你可以使用模型权重,但训练数据、训练代码通常不公开。尽管如此,这些开放模型仍然极大地推动了 AI 的民主化进程。
优势 可本地部署、可微调、数据安全、成本可控
优势 开箱即用、持续更新、最佳能力、省心省力
开源模型最大的优势之一就是可以在本地硬件上运行,完全控制数据隐私:
最易用的本地推理工具。一行命令下载运行模型:
ollama run qwen2.5:7b
ollama run deepseek-r1:14b
支持 Mac/Win/Linux,自动 GPU 加速,提供 API 兼容 OpenAI 格式
高性能推理引擎,专为生产环境设计:
pip install vllm
vllm serve Qwen/Qwen2.5-7B
PagedAttention、连续批处理、多 GPU 支持,吞吐量比原生 HuggingFace 高 10-24 倍