PAGE 04 · 大语言模型

💬 大语言模型 LLM

从 GPT-1 到 GPT-4,从 N-gram 到 Transformer,
深入理解推动 AI 革命的核心技术——大语言模型的演进、训练与能力

01 📈 从语言模型到大语言模型

语言模型(Language Model, LM)是 AI 的核心课题之一——它学习语言的统计规律,目标是预测下一个词。从简单的计数统计到拥有数千亿参数的神经网络,语言模型的发展是一段跨越 30 年的指数增长之旅。

1990s

N-gram 语言模型

基于马尔可夫假设,通过统计相邻 N 个词的共现概率来建模语言。

  • 原理:P(wn | w1...wn-1) ≈ P(wn | wn-N+1...wn-1)
  • 优点:简单高效,计算量小
  • 缺点:数据稀疏严重,无法捕捉长距离依赖
  • 代表:Google 最初的翻译系统基于 N-gram
2010

RNN 语言模型(RNN-LM)

循环神经网络通过隐状态传递历史信息,理论上可以捕捉任意长度的上下文。

  • 关键创新:Mikolov et al. 提出 RNN-LM (2010)
  • 优势:可以学习连续的词向量表示
  • 瓶颈:梯度消失导致难以学习长距离依赖
  • 演进:LSTM (1997)、GRU (2014) 部分缓解了梯度问题
2017

Transformer-LM

Transformer 架构(详见 PAGE 03)彻底取代了 RNN,基于自注意力机制实现并行计算。

  • 里程碑:Vaswani et al., "Attention Is All You Need" (2017)
  • 核心突破:完全并行训练、O(1) 距离的信息传递
  • 直接结果:GPT、BERT 等预训练模型的出现
2018 → 2026

大语言模型(LLM)时代

当 Transformer 模型的参数量突破"大"的阈值后,涌现出前所未有的能力。

  • 标志:GPT-1 (2018) → GPT-3 (2020) → GPT-4 (2023) → DeepSeek (2025)
  • 范式转变:从"专门训练"到"通用预训练 + 适配"

🔍 什么是"大"?——三大维度的指数增长

一个语言模型之所以被称为"大",并非仅仅因为参数多,而是三个维度的协同增长:

~1.17亿 → 1.8万亿+
参数规模 (GPT-1 → GPT-4 传闻)
5GB → 15TB+
训练数据 (Books → 互联网全部)
数 PF-days → 10万+ GPU
算力需求 (集群规模)

📊 Scaling Law(缩放定律)

2020 年,OpenAI 的 Kaplan 等人通过系统实验发现了一个简洁而惊人的规律:

神经语言模型的交叉熵损失 L(N, D, C) 是参数量 N、数据集大小 D 和计算量 C 的幂律函数,三者之间的关系高度可预测。 — Kaplan, J. et al. (2020). "Scaling Laws for Neural Language Models." arXiv:2001.08361
  • 核心公式(简化):L(N) ≈ (Nc / N)αN,其中 αN ≈ 0.076
  • 实践意义:给定计算预算,可以通过公式推算最优的参数量和数据量配比
  • Chinchilla Law (2022):Hoffmann et al. 修正了 Kaplan 的结论——之前大多数模型参数过多、训练数据不足,最优比例约为 20 tokens/parameter
  • 争议:2024 年起,部分研究(如 Llama 3)表明 Scaling Law 在某些能力上出现"收益递减"

02 🚀 GPT 系列演进

GPT(Generative Pre-trained Transformer)系列是 OpenAI 从 2018 年开始的旗舰项目,也是大语言模型时代最重要的里程碑之一。每一代 GPT 的推出,都在重新定义"AI 能做什么"的边界。

2018 · 6月

GPT-1 1.17 亿参数

论文:"Improving Language Understanding by Generative Pre-Training" — Radford et al., OpenAI

  • 核心思想:先在大量无标注文本上进行生成式预训练(Generative Pre-training),再在特定任务上微调(Fine-tuning)
  • 架构:12 层 Transformer Decoder,768 维隐藏层
  • 训练数据:BookCorpus(约 7,000 本书,5GB 文本)
  • 关键贡献:首次证明生成式预训练 + 判别式微调可以在 NLP 任务上取得 SOTA
  • 影响:开创了"预训练-微调"范式,奠定了后续所有 GPT 模型的基础
2019 · 2月

GPT-2 15 亿参数

论文:"Language Models are Unsupervised Multitask Learners" — Radford et al., OpenAI

  • 核心发现:足够大的语言模型在零样本(Zero-shot)条件下就能完成多种任务,无需微调
  • 架构升级:48 层,1600 维隐藏层,25 个注意力头
  • 训练数据:WebText(约 40GB,Reddit 高赞链接)
  • "太危险了"事件:OpenAI 以"可能被滥用于生成虚假信息"为由,分阶段发布模型(从 1.24 亿参数 → 7.74 亿 → 15 亿完整版),引发关于 AI 安全与开源的广泛讨论
  • 能力展示:续写故事、翻译、问答、摘要——全部无需微调
2020 · 5月

GPT-3 1750 亿参数

论文:"Language Models are Few-Shot Learners" — Brown et al., NeurIPS 2020

  • 核心突破:Few-shot Learning 的涌现——仅需在提示中给出几个示例,模型就能理解任务并执行
  • 架构:96 层,12288 维隐藏层,96 个注意力头
  • 训练数据:混合数据集(Filtered Web、Books、Wikipedia 等,共 ~570GB tokens)
  • 训练成本:估计约 460 万美元(2020 年价格),消耗 ~3.14 × 10²³ FLOPS
  • 能力亮点:写代码、做数学、写论文、对话——在许多任务上接近人类水平
  • 影响:验证了 Scaling Law 的有效性,催生了 Prompt Engineering 和 In-Context Learning 研究
2023 · 3月

GPT-4 多模态

论文:"GPT-4 Technical Report" — OpenAI (2023)

  • 核心升级:多模态——可以处理文本 + 图像输入
  • 性能飞跃:在律师资格考试中得分超过 90% 的人类考生,各种基准测试上大幅领先 GPT-3.5
  • "iPhone 时刻":OpenAI CEO Sam Altman 称 GPT-4 为"大语言模型的 iPhone 时刻"——标志着 AI 从"玩具"变成"工具"
  • 参数量:官方未公布,传闻在 1.8 万亿级别(MoE 架构)
  • RLHF 对齐:通过大规模人类反馈强化学习显著提高了安全性和有用性
  • 后续:GPT-4o (2024) 实现原生多模态(音频+视觉+文本统一),速度大幅提升

🔑 每一代的关键创新总结

模型参数量关键创新历史意义
GPT-11.17 亿生成式预训练 + 微调范式开创"预训练→微调"路线
GPT-215 亿无监督多任务学习Zero-shot 能力首次验证
GPT-31750 亿In-Context Few-Shot LearningScaling Law 实践验证,LLM 时代开端
GPT-4未公开 (传闻 ~1.8T)多模态 + RLHF 对齐"AI 的 iPhone 时刻"

03 ⚖️ BERT vs GPT:两种路线

2018 年是 NLP 领域的"双峰年":OpenAI 发布了 GPT-1(自回归解码器),Google 发布了 BERT(双向编码器)。两条路线各自代表了不同的设计哲学,深刻影响了后续几年的研究方向。

🔤 BERT(2018)

全称:Bidirectional Encoder Representations from Transformers

方向:双向编码器(Encoder-only)

  • 同时看到左右两侧的上下文
  • 使用 Masked Language Modeling (MLM) 预训练:随机遮盖 15% 的 token,让模型预测
  • 使用 Next Sentence Prediction (NSP) 学习句子关系
  • 擅长理解类任务:情感分析、NER、QA、文本分类
  • 参数量:BERT-base 1.1 亿 / BERT-large 3.4 亿
  • 2018 年横扫 11 项 NLP 基准

Devlin, J. et al. (2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." NAACL 2019

💬 GPT

全称:Generative Pre-trained Transformer

方向:自回归解码器(Decoder-only)

  • 只能看到左侧(之前)的上下文
  • 使用 自回归语言建模 预训练:预测下一个 token
  • 天然适合生成类任务:文本续写、对话、翻译
  • 通过规模Scaling 涌现出 Zero/Few-shot 能力
  • GPT-3 之后证明了"规模 + 解码器 = 万能"

Radford, A. et al. (2018/2019/2020). GPT-1/2/3 papers.

维度BERT(编码器路线)GPT(解码器路线)
架构Transformer Encoder(双向)Transformer Decoder(单向/自回归)
注意力双向自注意力(Full Attention)因果自注意力(Causal Attention)
预训练目标MLM + NSP(完形填空)预测下一个词(自回归)
擅长任务理解类:分类、NER、QA生成类:续写、对话、翻译
Scaling 趋势收益递减(~1B 后瓶颈)持续涌现新能力
代表模型BERT、RoBERTa、ALBERT、DeBERTaGPT 系列、LLaMA、Qwen、DeepSeek
当前主流特定 NLP 任务、Embedding 模型通用大模型(LLM)的主流选择

🔀 T5:统一路线

Google 在 2019 年提出了 T5(Text-to-Text Transfer Transformer),试图统一编码器和解码器路线。T5 将所有 NLP 任务统一为"文本到文本"的格式,使用完整的 Encoder-Decoder 架构。

  • 关键思想:无论分类、翻译还是摘要,输入和输出都是文本
  • 示例:"翻译成英语:今天天气很好" → "The weather is nice today"
  • 规模:T5-11B 拥有 110 亿参数
  • 影响:启发了 FLAN、FLAN-T5 等指令微调方法

Raffel, C. et al. (2020). "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer." JMLR

2022 年之后,Decoder-only 架构成为 LLM 的绝对主流。几乎所有重要的大模型(GPT-4、Claude、LLaMA、Qwen、DeepSeek)都选择了纯解码器路线——因为事实证明,在足够大的规模下,生成能力比双向理解更有价值,且推理效率更高。

04 ⚙️ LLM 训练全流程

一个现代 LLM 的诞生,需要经历多个精心设计的阶段。从"什么都学"的预训练,到"学会听话"的指令微调,再到"变得安全有用"的对齐——每一步都是不可或缺的。

1

📚 预训练(Pre-training)~90% 算力

目标:在海量无标注文本上学习语言的统计规律和世界知识

  • 数据来源:网页(Common Crawl)、书籍、Wikipedia、代码、论文等
  • 数据规模:GPT-3 约 570GB tokens;Llama 3 约 15T tokens
  • 学习方式:自监督——预测下一个 token(Next Token Prediction)
  • 产出:一个具有广泛知识但"不会按指令行事"的基座模型(Base Model)
  • 资源需求:数千 GPU、数周到数月、数百万美元级别

预训练模型就像一个读了整个互联网的"书呆子"——知道很多,但不太会和人交流。

2

🎯 指令微调(Supervised Fine-Tuning, SFT)~1% 算力

目标:教会模型遵循人类指令,以"指令-回复"的格式回答问题

  • 数据:高质量的人工标注指令-回复对(instruction-response pairs),通常数万到数十万条
  • 数据来源:人工编写、开源数据集(Alpaca、ShareGPT)、蒸馏
  • 训练方式:标准监督学习(Supervised Learning),全参数微调或 LoRA
  • 关键点:数据质量 > 数据数量——少量高质量 SFT 数据胜过大量低质量数据
3

🤝 RLHF(人类反馈强化学习)对齐

目标:让模型的输出更符合人类偏好——更有帮助、更诚实、更安全

  • 步骤 3a:奖励模型训练
    • 让模型对同一问题的多个回答进行排序(人类标注)
    • 用排序数据训练一个奖励模型(Reward Model, RM),学会为回答打分
  • 步骤 3b:PPO 优化
    • 使用 PPO(Proximal Policy Optimization)算法,以 RM 的奖励为信号优化 LLM
    • 同时加入 KL 散度惩罚,防止模型偏离 SFT 学到的行为太远
  • 三 H 原则:Helpful(有用)、Honest(诚实)、Harmless(无害)

Ouyang, L. et al. (2022). "Training Language Models to Follow Instructions with Human Feedback." NeurIPS 2022 — InstructGPT / ChatGPT 的核心技术

4

🔄 DPO 等新方法简化

目标:用更简单的方式实现与 RLHF 相当的对齐效果

  • DPO(Direct Preference Optimization, 2023):
    • 跳过奖励模型和 PPO,直接用偏好数据优化策略
    • 将 RLHF 的复杂流程简化为一步监督学习
    • 数学上等价于 RLHF 但实现简单得多
  • RLAIF(RL from AI Feedback):用 AI(如 GPT-4)代替人类标注偏好数据
  • KTO(Kahneman-Tversky Optimization, 2024):只需要"好/坏"信号,不需要配对偏好数据
  • GRPO(Group Relative Policy Optimization):DeepSeek-R1 使用的方法,无需 Critic 模型

💡 训练流程全景图

🌐 海量文本 → 预训练 → 基座模型 → 📝 指令数据 → SFT → 对话模型 → 👍 偏好数据 → RLHF/DPO → ✅ 对齐模型

05 🧠 大模型的关键能力

当模型的规模超过某个临界点后,会出现一些在小模型中完全不存在的"涌现能力"(Emergent Abilities)。这些能力并非被显式训练,而是在足够大的参数和数据中自然涌现出来的。

涌现能力

当模型规模超过阈值后,突然获得之前没有的能力。如:GPT-3 在 175B 时突然具备 Few-Shot 学习能力。

Wei, J. et al. (2022). "Emergent Abilities of Large Language Models." Transactions on ML

📝

In-Context Learning

无需更新模型权重,仅通过提示中的示例就能学习新任务。包括 Zero-Shot(无示例)、One-Shot(一个示例)和 Few-Shot(少量示例)。

Brown, T. et al. (2020). GPT-3 paper.

🔗

Chain-of-Thought

在提示中引导模型"一步步思考",显著提升复杂推理能力。如数学题、逻辑推理、多步规划等任务。

Wei, J. et al. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022

🌍

世界知识

预训练过程中从海量文本中吸收的广博知识:历史事实、科学原理、地理信息、编程知识、多语言等。

模型参数本质上是压缩后的"世界知识数据库"。

🔬 涌现能力的争议

2023 年,Schaeffer et al. 在论文"Are Emergent Abilities of Large Language Models a Mirage?"中提出了质疑:

  • 涌现可能是度量选择的结果——如果用非线性指标(如精确匹配),小模型的表现会突然从 0 跳到非 0
  • 如果换成对数概率或连续指标,同样的能力是平滑预测的,并不存在"突变点"
  • 尽管如此,从实用角度看,大规模模型在复杂任务上确实展现出小模型无法企及的能力

Schaeffer, R. et al. (2023). "Are Emergent Abilities of Large Language Models a Mirage?" Nature

06 🏆 主流大模型对比

2024–2026 年,大语言模型迎来了前所未有的百花齐放。以下是目前最重要的几个模型家族:

GPT-4o
OpenAI
Claude 3.5
Anthropic
Gemini 2.0
Google
Qwen2.5
阿里云
DeepSeek-V3
DeepSeek
Llama 3
Meta
模型 发布方 参数量 上下文窗口 架构特点 开源
GPT-4o OpenAI 未公开 128K 原生多模态(音频+视觉+文本),MoE 架构 闭源
Claude 3.5 Sonnet Anthropic 未公开 200K Constitutional AI (CAI) 对齐,长上下文理解强 闭源
Gemini 2.0 Google 未公开 1M–2M 原生多模态,超长上下文,Google 生态集成 闭源
Qwen2.5-72B 阿里云 72B 128K Dense 架构,中英双语强,多模态版本 Qwen-VL 开源
DeepSeek-V3 DeepSeek 671B MoE 128K MoE 架构(37B 激活),极致性价比,训练成本仅 ~557 万美元 开源
Llama 3.1-405B Meta 405B 128K 最大的开源 Dense 模型,社区生态最丰富 开源

📊 关键趋势观察

  • MoE 成为主流:DeepSeek-V3、GPT-4、Mistral 8x7B 等都采用混合专家架构——用更少的激活参数达到更好的效果
  • 上下文窗口竞赛:从 GPT-3 的 2K → Gemini 的 2M,上下文窗口 3 年扩大了 1000 倍
  • 开源追平闭源:2024-2025 年,开源模型(Qwen、DeepSeek)在多项基准上已接近甚至超越 GPT-4 级别
  • 推理模型兴起:DeepSeek-R1、o1 等展示了"慢思考"(Test-Time Compute)的巨大潜力

07 🔓 开源 vs 闭源

大模型的"开源"定义并不像传统软件那么简单。实际上,大多数所谓"开源"大模型更接近于"开放权重"(Open Weights)——你可以使用模型权重,但训练数据、训练代码通常不公开。尽管如此,这些开放模型仍然极大地推动了 AI 的民主化进程。

🔓 开源/开放权重

  • Llama 系列(Meta)—— 2023 年 Llama 2 首次以商用友好协议发布,引爆开源社区
  • Qwen 系列(阿里云)—— 中英双语表现优异,多规格覆盖(0.5B–72B)
  • DeepSeek 系列(深度求索)—— 极致性价比,MoE 架构引领方向
  • Mistral 系列(Mistral AI)—— 欧洲代表,高效 MoE 设计
  • Yi 系列(零一万物)—— 中文生态重要力量

优势 可本地部署、可微调、数据安全、成本可控

🔒 闭源 API

  • GPT-4o / o1(OpenAI)—— 能力最强,生态最完善
  • Claude 3.5(Anthropic)—— 编码和写作能力突出,长上下文
  • Gemini 2.0(Google)—— 超长上下文,与 Google 生态深度集成

优势 开箱即用、持续更新、最佳能力、省心省力

🖥️ 本地部署方案

开源模型最大的优势之一就是可以在本地硬件上运行,完全控制数据隐私:

Ollama

最易用的本地推理工具。一行命令下载运行模型:

ollama run qwen2.5:7b
ollama run deepseek-r1:14b

支持 Mac/Win/Linux,自动 GPU 加速,提供 API 兼容 OpenAI 格式

vLLM

高性能推理引擎,专为生产环境设计:

pip install vllm
vllm serve Qwen/Qwen2.5-7B

PagedAttention、连续批处理、多 GPU 支持,吞吐量比原生 HuggingFace 高 10-24 倍

  • llama.cpp / GGUF:纯 CPU 推理,支持量化(Q4_K_M 等),适合笔记本和边缘设备
  • LM Studio:图形界面,内置模型库,适合初学者
  • 量化格式:FP16 → INT8 → INT4(GGUF/GPTQ/AWQ),在几乎不损失质量的情况下将显存需求减半至 1/4

📖 本章参考来源