AI 概念百科 — 22 个核心概念深度解读

🧠深度学习 Deep Learning

一句话：用很多层"神经元"搭成的网络自动从数据中学规律——层数越多越"深"，所以叫深度学习。

🎯 大白话解释

想象一条流水线：原材料（数据）从左边进来，经过很多道加工工序（网络层），每道工序提取一些特征，最后右边出来的就是产品（预测结果）。

比如识别猫的图片：第 1 层学会看边缘，第 2 层学会看纹理，第 3 层学会看耳朵、眼睛，第 4 层把这些组合起来——"有尖耳朵 + 竖瞳孔 + 毛茸茸 = 猫！"

核心要点

神经网络：由大量"神经元"组成的数学函数网络，模拟大脑的信号传递
反向传播：网络答错时，从输出层往回调整每个神经元的参数（权重）
梯度下降：调整参数的方向和步长，像下山一样找到"误差最低点"
常见架构：CNN（看图）、RNN（读文）、Transformer（全能选手）

🔗

关联概念：Transformer 预训练 LLM | 📖 深度页面

🔄Transformer

一句话：2017 年 Google 发明的神经网络架构，核心是"自注意力"——让每个词都能直接关注句子里的其他所有词。GPT、BERT、Claude 全建立在它之上。

🎯 大白话解释

读"小明把书给了小红"这句话时，你的大脑能立刻理解"书"和"给"有关系、"小明"是主语——这就是注意力在做的事。

Transformer 的"自注意力机制"让模型同时看整句话中每个词与其他词的关系，不像以前的 RNN 必须从左到右一个词一个词读。这让它处理速度快、理解能力强。

QKV 三兄弟

Query (Q)：当前词在问"谁跟我有关系？"
Key (K)：每个词的"标签"，用来被 Query 匹配
Value (V)：每个词的实际信息内容

Q 和 K 点乘算出"注意力权重"，权重越高说明两个词越相关，然后用权重对 V 加权求和——得到融合了全局信息的新表示。

关键论文

Vaswani et al., 2017, "Attention is All You Need" — 这篇论文开创了大模型时代。

🔗

关联概念：深度学习 Token LLM 上下文窗口 | 📖 深度页面

🧩Token

一句话：大模型处理文字的最小单位——不是"字"也不是"词"，而是介于两者之间的"碎片"。1 个中文字 ≈ 1-2 个 Token，1 个英文词 ≈ 1-3 个 Token。

🎯 大白话解释

大模型不直接看文字，它先把文字切成"积木块"（Token），再把每个积木块变成数字来处理。

比如 "我爱人工智能" 可能被切成 ["我", "爱", "人工", "智能"] = 4 个 Token。而 "ChatGPT" 可能切成 ["Chat", "G", "PT"] = 3 个 Token。

为什么 Token 很重要？

计费依据：OpenAI 等按 Token 数量收费（GPT-4o 约 $2.5 / 1M 输入 Token）
上下文限制：模型能处理的 Token 总数有上限（如 128K Token）
速度影响：Token 越多，推理越慢

Tokenizer 分词器

不同模型用不同的分词器：GPT 用 tiktoken（BPE 算法），LLaMA 用 SentencePiece。这就是同样一段文字在不同模型里 Token 数不同的原因。

🔗

关联概念：上下文窗口 LLM Embedding

📚预训练 Pre-training

一句话：让模型"读完整个互联网"来学习语言的通识能力——就像一个人从小读了几万本书，虽然还没上班，但已经"什么都懂一点"。

🎯 大白话解释

预训练是大模型的"上学阶段"。模型被喂入海量文本（维基百科、书籍、代码、网页...），通过一个简单任务反复练习：

GPT 类（自回归）：遮住最后一个词，猜下一个词是什么 → "我今天去了____"
BERT 类（掩码）：随机遮住中间的词，猜被遮住的词 → "我[MASK]去了商场"

通过预测几万亿个词，模型学会了语法、事实知识、逻辑推理、编程能力...这就是"涌现能力"的基础。

预训练 vs 微调

阶段	数据	目标	成本
预训练	互联网级别（TB）	学通识	数百万美元
微调	领域数据（MB-GB）	学专业	几十到几千美元

🔗

关联概念：LLM 微调 RLHF Token

💬LLM 大语言模型

一句话：拥有数十亿到万亿参数的 Transformer 模型，通过预训练掌握了"理解和生成人类语言"的能力——ChatGPT、Claude、Gemini 都是 LLM。

🎯 大白话解释

LLM = Large Language Model。你可以把它想成一个"读完了整个图书馆的超级大脑"——你问它任何问题，它都能组织语言回答你。但它的本质其实很简单：给前文，预测下一个 Token，反复预测就生成了一大段文字。

LLM 的能力金字塔

🏔️ 涌现能力（推理、编程、数学）
📝 指令遵循（RLHF / RLHF 后）
📖 语言理解（预训练后）
🧱 文本生成（基础能力）

主要 LLM 家族

GPT 系列（OpenAI）：GPT-3.5 → GPT-4 → GPT-4o
Claude 系列（Anthropic）：Claude 2 → Claude 3 → Claude 3.5/4
Gemini 系列（Google）：Gemini Pro → Gemini Ultra → Gemini 2.5
LLaMA 系列（Meta，开源）：LLaMA → LLaMA 2 → LLaMA 3
DeepSeek（深度求索，开源）：DeepSeek-V2 → R1
Qwen 系列（阿里，开源）：Qwen → Qwen 2.5

🔗

关联概念：Transformer 预训练提示词 RLHF Token | 📖 深度页面

✍️提示词工程 Prompt Engineering

一句话：给 AI 写"好的工作说明书"——同一个模型，好的提示词能让输出质量翻倍。

🎯 大白话解释

你给 AI 说"帮我写个邮件"和"你是一位资深商务经理，请帮我写一封给客户的道歉邮件，要求语气诚恳、提出补偿方案、控制在 200 字以内"——哪个输出更好？显然后者。这就是提示词工程的价值。

10 大常用技巧

技巧	一句话	示例
角色扮演	给 AI 设定身份	"你是 10 年经验的 Python 工程师"
Few-shot	给几个示例	"输入:苹果→输出:水果; 输入:猫→输出:?"
Chain-of-Thought	让 AI 一步步想	"请一步步分析这道数学题"
结构化输出	指定输出格式	"返回 JSON 格式"
约束边界	明确限制	"200 字以内""只用中文"

🔗

关联概念：LLM Token 上下文窗口 | 📖 深度页面

🔍RAG 检索增强生成

一句话：让大模型回答之前先"翻书查资料"——解决"模型不知道你公司内部知识"和"信息过时"两大问题。

🎯 大白话解释

LLM 的知识有两个致命缺陷：①训练数据有截止日期（不知道最新信息）；②不知道你的私有数据。

RAG 的解法就像"开卷考试"：先把你的文档做成"参考书"存起来，AI 回答问题前先从参考书里找到最相关的段落，然后基于找到的内容组织回答——这样就不会"瞎编"了。

RAG 四步流程

📄 文档 → ✂️ 分块 → 🔢 Embedding 向量化 → 🗄️ 存入向量数据库

↓ 用户提问时 ↓

❓ 问题 → 🔢 问题向量化 → 🔍 向量检索 Top-K → 🤖 LLM 基于检索结果生成回答

💡

RAG vs 微调：RAG 像"开卷考试"（实时查资料），微调像"上培训班"（把知识学进脑子里）。大多数场景建议先用 RAG，成本低、效果快、知识可随时更新。

🔗

关联概念：Embedding 向量数据库 LLM 幻觉 | 📖 深度页面

🗄️向量数据库 Vector Database

一句话：专门用来存储和搜索"语义向量"的数据库——传统数据库按关键词搜，向量数据库按"意思相近"搜。

🎯 大白话解释

传统数据库搜"苹果"只能找到包含"苹果"两个字的文档。但向量数据库搜"苹果"能同时找到"Apple"、"水果"、"iPhone"——因为它们语义上相关。

原理：先用 Embedding 模型把每段文字变成一个高维数字向量（比如 1536 维），存入向量数据库。搜索时也把查询变成向量，然后用"余弦相似度"找到最相似的几个结果。

主流向量数据库

名称	类型	特点
FAISS	库（Meta 开源）	速度极快，纯内存，适合原型
Chroma	嵌入式数据库	轻量，Python 友好，开发首选
Pinecone	云服务	全托管，自动扩缩容
Weaviate	开源数据库	支持混合搜索（向量 + 关键词）
Milvus	开源数据库	大规模向量检索，CNCF 项目

🔗

关联概念：Embedding RAG

🔧微调训练 Fine-tuning

一句话：在预训练好的通用大模型基础上，用你自己的数据继续训练，让它变成你领域的"专家"——就像让一个博士去读行业培训班。

🎯 大白话解释

预训练的 LLM 像一个"博学的通才"——什么都懂一点，但不够专业。如果你想让它精通医疗问诊、法律咨询、或者你公司的客服话术，就需要用领域数据继续训练它。

微调的三个层次

全量微调（Full Fine-tuning）：调整模型所有参数。效果最好但成本巨大（需要多张 A100 GPU）
LoRA / QLoRA：只训练 0.1%-1% 的额外参数。效果接近全量微调，成本低 10-100 倍，是目前主流方案
Adapter：在模型层之间插入小型可训练模块

微调数据格式示例

// 指令微调数据（JSON Lines 格式）
{"instruction": "判断这条评论是正面还是负面",
 "input": "这家餐厅的菜太难吃了",
 "output": "负面"}
{"instruction": "判断这条评论是正面还是负面",
 "input": "服务态度超级好！",
 "output": "正面"}

🔗

关联概念：预训练 LoRA 量化 RLHF | 📖 深度页面

📦量化 Quantization

一句话：把模型的数字精度从 32 位压缩到 8 位甚至 4 位——体积缩小 4-8 倍，能在普通电脑上跑大模型，质量损失很小。

🎯 大白话解释

模型的每个参数原本是一个 32 位浮点数（像"3.141592653589793"），量化就是把它简化为 8 位甚至 4 位（像"3.14"甚至"3"）。精度损失了一点点，但体积直接缩小 4-8 倍。

这就像把高清电影压缩成标清——文件小了 80%，但肉眼几乎看不出区别。

量化方案对比

方案	精度	70B 模型显存	质量损失
FP16（无量化）	16-bit	~140 GB	无
INT8	8-bit	~70 GB	极小
GPTQ / AWQ	4-bit	~35 GB	小
GGUF (Q4_K_M)	4-bit 混合	~35 GB (CPU 可跑)	小

💡

实用建议：想在 Mac / 普通电脑本地跑大模型？用 llama.cpp + GGUF 格式的 4-bit 量化模型，7B 模型只需 4GB 内存就能跑。

🔗

关联概念：微调 LoRA LLM | 📖 深度页面

📞Function Calling 函数调用

一句话：让大模型能"打电话叫外援"——模型判断需要查天气、查数据库、发邮件时，输出结构化的函数调用指令，由程序执行后把结果喂回模型。

🎯 大白话解释

LLM 本身只会"说话"，不能真的去搜网页或查数据库。Function Calling 就是给它一份"可以打的电话列表"——

你告诉模型："你可以调用 get_weather(city) 查天气"
用户问"北京今天多少度？"，模型不是瞎猜，而是输出：{"name":"get_weather","arguments":{"city":"北京"}}
你的程序执行这个函数，拿到真实天气数据，再喂回给模型
模型基于真实数据回答："北京今天 15°C，多云"

执行流程

用户提问 → LLM 决定调哪个函数 → 程序执行函数 → 结果回传 LLM → 生成最终回答

Function Calling 是 Tools 和 Agent 的底层机制——没有它，Agent 就只能"空想"，不能"做事"。

🔗

关联概念：Tools Agent MCP

🔧Tools 工具

一句话：Agent 可以使用的"外部能力"——搜索引擎、计算器、数据库、API、文件系统等，每个都被封装成一个标准化的 Tool。

🎯 大白话解释

如果 Agent 是"大脑"，Tools 就是"手和脚"。大脑想查东西时用搜索 Tool，想算数时用计算器 Tool，想存文件时用文件 Tool。

每个 Tool 包含三要素：名称（做什么）、描述（什么时候用）、参数 Schema（需要传什么）。模型根据描述决定调用哪个 Tool。

常见 Tool 类型

信息获取：网络搜索、维基百科、天气查询
数据操作：SQL 查询、API 调用、文件读写
代码执行：Python REPL、Shell 命令
内容生成：图片生成、PDF 创建
通信：发邮件、发消息、创建日程

🔗

关联概念：Function Calling Agent Skills MCP

🤖Agent 智能体

一句话：一个能自主思考、自主决策、自主行动的 AI 系统——不再是你问它答，而是给它一个目标，它自己规划步骤、调用工具、完成任务。

🎯 大白话解释

普通 LLM 像一个"只会回答问题的客服"，而 Agent 像一个"能帮你做事的助理"。你说"帮我订明天上海的酒店"，Agent 会：

🧠 思考：需要查航班时间、搜索酒店、比较价格
🔍 行动：调用搜索工具查酒店
👁️ 观察：分析搜索结果
🔄 循环：信息够了吗？不够继续搜
📤 完成：推荐最合适的酒店

Agent = LLM + Tools + 循环推理

🧠 LLM（大脑） + 🔧 Tools（手脚） + 🔄 Agent Loop（循环推理） = 🤖 Agent

🔗

关联概念：LLM Tools Function Calling 设计模式 Skills MCP | 📖 深度页面

⚡Skills 技能

一句话：Agent 的"技能包"——比 Tool 更高级，包含专业知识 + 标准流程 + 可执行脚本，让 Agent 从"通才"变成"专家"。

🎯 大白话解释

如果 Tool 是"锤子、螺丝刀"这样的单个工具，那 Skill 就是一整套"装修指南"——不仅包含工具，还包含专业知识、操作步骤和注意事项。

比如一个"Excel 数据分析 Skill"可能包含：读取 Excel 的工具 + 数据清洗的最佳实践 + 可视化的标准流程 + 常见错误的处理方式。Agent 加载这个 Skill 后就变成了"数据分析专家"。

Skill vs Tool 对比

维度	Tool	Skill
粒度	单个操作	完整能力包
包含	函数 + 参数描述	知识 + 流程 + 工具 + 脚本
类比	锤子	木工培训课程
举例	search_web()	"学术论文写作 Skill"

🔗

关联概念：Tools Agent MCP

🔌MCP 协议

一句话：AI 世界的"USB-C 标准"——Anthropic 提出的开放协议，让任何工具和任何 AI 应用能即插即用地连接。

🎯 大白话解释

以前：每个 AI 应用想用 GitHub，就得自己写 GitHub 集成代码；想用 Slack，又得写 Slack 的。10 个 AI 应用 × 10 个工具 = 100 个集成。

MCP 之后：GitHub 做一个 MCP Server，所有 AI 应用装一个 MCP Client 就能直接用。10 + 10 = 20 个集成。这就是标准化的力量。

MCP 三大原语

Tools：可执行的操作（创建 Issue、发送邮件）——模型调用，人确认
Resources：可读取的数据（文件内容、数据库查询）——应用控制
Prompts：可复用的提示词模板——用户选择

🔗

关联概念：Tools Function Calling Agent | 📖 深度页面

🧩Agent 设计模式

一句话：教 Agent "怎么做事"的方法论——四种核心模式对应四种工作方式。

🎯 四种模式速览

模式	人话类比	工作方式	适合场景
⚡ ReAct	边想边做	思考→行动→观察→循环	简单查询 + 工具调用
📋 Plan-Execute	先列提纲再动笔	规划全部步骤→逐步执行	多步骤复杂任务
🪞 Reflection	写完检查再改	生成→自我批评→改进	高质量文档/代码
👥 Multi-Agent	组团分工合作	多个专家各负其责	大型复杂项目

💡

选型原则：从最简单的 ReAct 开始，复杂了再升级。"不要一开始就上 Multi-Agent——过早优化是万恶之源。"

🔗

关联概念：Agent Tools | 📖 深度页面

🔢Embedding 向量嵌入

一句话：把文字/图片/音频变成一串数字（向量），让计算机能理解"语义相似度"——"猫"和"喵星人"的向量会很接近，和"汽车"的向量会很远。

🎯 大白话解释

计算机不懂中文，只懂数字。Embedding 就是"翻译器"——把一段文字翻译成一个数字列表（比如 1536 个数字）。翻译的神奇之处在于：意思相近的文字，翻译出来的数字列表也相近。

# "我喜欢猫" → [0.12, -0.35, 0.88, ...]  ← 1536 个数字
# "我爱喵星人" → [0.11, -0.34, 0.87, ...]  ← 很接近！
# "今天股市大涨" → [0.95, 0.22, -0.60, ...]  ← 完全不同

这就是 RAG 能"按语义搜索"的底层原理。常用的 Embedding 模型：OpenAI text-embedding-3-small、开源 bge-large-zh。

🔗

关联概念：向量数据库 RAG Token

📏上下文窗口 Context Window

一句话：大模型一次能"看到"的最大文本量——就像工作台的大小，决定了你能同时摊开多少资料。

🎯 大白话解释

模型每次处理请求时，输入的所有内容 + 输出的内容都要装进一个"窗口"里。窗口满了就装不下了。

主流模型上下文窗口

模型	上下文窗口	约等于
GPT-4o	128K Token	~一本 300 页的书
Claude 3.5 Sonnet	200K Token	~1.5 本书
Gemini 2.5 Pro	1M Token	~7 本书

上下文不够时怎么办？→ 用 RAG（只检索最相关的段落塞进窗口）或 Summary Memory（把历史对话压缩成摘要）。

🔗

关联概念：Token RAG 提示词

🌫️幻觉 Hallucination

一句话：大模型一本正经地"胡说八道"——输出的内容看起来很自信、逻辑通顺，但实际上是编造的。

🎯 大白话解释

模型的本质是"预测下一个最可能的词"，不是"回忆确定知道的事实"。当它不确定答案时，不会说"我不知道"，而是会生成一个"统计上看起来合理"的回答——即使内容是假的。

常见幻觉类型

事实错误：编造不存在的论文、虚构人物经历
引用造假：给出格式正确但不存在的论文 DOI
逻辑矛盾：前后文自相矛盾

怎么减少幻觉？

RAG：让模型基于真实文档回答，减少"瞎编"
要求引用出处：提示词中加"请标注信息来源"
温度调低：temperature 设为 0-0.3，减少随机性
Reflection：让模型自我检查再输出

🔗

关联概念：RAG LLM 提示词

👤RLHF 人类反馈强化学习

一句话：让人类当"老师"给模型的回答打分，模型根据打分调整自己——这就是 ChatGPT 从"会说话"变成"说人话"的关键步骤。

🎯 大白话解释

预训练后的模型像一个"知识渊博但说话不着调的学者"——能力有了，但输出可能啰嗦、有害、或不按指令来。RLHF 就是请人类标注员给模型的多个回答打分（哪个更好），然后用强化学习让模型学会生成人类偏好的回答。

RLHF 三步流程

① SFT 监督微调 → ② 训练奖励模型（人类打分） → ③ PPO 强化学习优化

🔗

关联概念：预训练微调 LLM

🎯LoRA 低秩适配

一句话：微调大模型的"省钱神器"——不动原模型的数十亿参数，只训练额外插入的一小组参数（约 0.1%-1%），效果接近全量微调，成本低 10-100 倍。

🎯 大白话解释

想象你有一本百科全书（原模型），你不想重印整本书，只想在关键页面贴上"便签纸"做标注。LoRA 就是这些"便签纸"——原书不动，只训练便签纸上的内容。

QLoRA 更进一步：先把原模型量化到 4-bit（缩小体积），再贴 LoRA 便签——这样 7B 模型用一张 RTX 4090 就能微调。

🔗

关联概念：微调量化 | 📖 深度页面

🎨多模态 Multimodal

一句话：让 AI 不仅能读文字，还能看图片、听声音、理解视频——从"只有耳朵"变成"五感齐全"。

🎯 大白话解释

之前的 LLM 像一个"只能打字聊天的人"。多模态模型则像"坐在你旁边的真人"——你给它看一张图，它能描述内容；你给它一段语音，它能转成文字并回答。

主要模态

文本 → 图像：Stable Diffusion、DALL-E、Midjourney
图像 → 文本：GPT-4V、LLaVA、CLIP
语音 → 文本：Whisper
文本 → 语音：TTS（Text-to-Speech）
文本 → 视频：Sora、Runway

GPT-4o、Gemini 2.5 这些最新模型都是"原生多模态"——一个模型同时处理文字、图片、音频、视频。

🔗

关联概念：LLM Embedding Transformer | 📖 深度页面

📚 AI 概念百科

🔍 快速导航

🧠深度学习 Deep Learning

🎯 大白话解释

核心要点

🔄Transformer

🎯 大白话解释

QKV 三兄弟

关键论文

🧩Token

🎯 大白话解释

为什么 Token 很重要？

Tokenizer 分词器

📚预训练 Pre-training

🎯 大白话解释

预训练 vs 微调

💬LLM 大语言模型

🎯 大白话解释

LLM 的能力金字塔

主要 LLM 家族

✍️提示词工程 Prompt Engineering

🎯 大白话解释

10 大常用技巧

🔍RAG 检索增强生成

🎯 大白话解释

RAG 四步流程

🗄️向量数据库 Vector Database

🎯 大白话解释

主流向量数据库

🔧微调训练 Fine-tuning

🎯 大白话解释

微调的三个层次

微调数据格式示例

📦量化 Quantization

🎯 大白话解释

量化方案对比

📞Function Calling 函数调用

🎯 大白话解释

执行流程

🔧Tools 工具

🎯 大白话解释

常见 Tool 类型

🤖Agent 智能体

🎯 大白话解释

Agent = LLM + Tools + 循环推理

⚡Skills 技能

🎯 大白话解释

Skill vs Tool 对比

🔌MCP 协议

🎯 大白话解释

MCP 三大原语

🧩Agent 设计模式

🎯 四种模式速览

🔢Embedding 向量嵌入

🎯 大白话解释

📏上下文窗口 Context Window

🎯 大白话解释

主流模型上下文窗口

🌫️幻觉 Hallucination

🎯 大白话解释

常见幻觉类型

怎么减少幻觉？

👤RLHF 人类反馈强化学习

🎯 大白话解释

RLHF 三步流程

🎯LoRA 低秩适配

🎯 大白话解释

🎨多模态 Multimodal

🎯 大白话解释

主要模态