📚 AI 概念百科

22 个核心概念,每个都有一句话直觉 + 大白话原理 + 关键要点 + 关联概念——从零建立完整 AI 认知体系

🔍 快速导航

深度学习 Transformer Token 预训练 LLM 大语言模型 提示词工程 RAG 检索增强生成 向量数据库 微调训练 量化 Function Calling Tools 工具 Agent 智能体 Skills 技能 MCP 协议 Agent 设计模式 Embedding 向量嵌入 上下文窗口 幻觉 Hallucination RLHF 人类反馈强化学习 LoRA 低秩适配 多模态
01

🧠深度学习 Deep Learning

一句话:用很多层"神经元"搭成的网络自动从数据中学规律——层数越多越"深",所以叫深度学习。

🎯 大白话解释

想象一条流水线:原材料(数据)从左边进来,经过很多道加工工序(网络层),每道工序提取一些特征,最后右边出来的就是产品(预测结果)。

比如识别猫的图片:第 1 层学会看边缘,第 2 层学会看纹理,第 3 层学会看耳朵、眼睛,第 4 层把这些组合起来——"有尖耳朵 + 竖瞳孔 + 毛茸茸 = 猫!"

核心要点

  • 神经网络:由大量"神经元"组成的数学函数网络,模拟大脑的信号传递
  • 反向传播:网络答错时,从输出层往回调整每个神经元的参数(权重)
  • 梯度下降:调整参数的方向和步长,像下山一样找到"误差最低点"
  • 常见架构:CNN(看图)、RNN(读文)、Transformer(全能选手)
02

🔄Transformer

一句话:2017 年 Google 发明的神经网络架构,核心是"自注意力"——让每个词都能直接关注句子里的其他所有词。GPT、BERT、Claude 全建立在它之上。

🎯 大白话解释

读"小明了小红"这句话时,你的大脑能立刻理解"书"和"给"有关系、"小明"是主语——这就是注意力在做的事。

Transformer 的"自注意力机制"让模型同时看整句话中每个词与其他词的关系,不像以前的 RNN 必须从左到右一个词一个词读。这让它处理速度快、理解能力强。

QKV 三兄弟

  • Query (Q):当前词在问"谁跟我有关系?"
  • Key (K):每个词的"标签",用来被 Query 匹配
  • Value (V):每个词的实际信息内容

Q 和 K 点乘算出"注意力权重",权重越高说明两个词越相关,然后用权重对 V 加权求和——得到融合了全局信息的新表示。

关键论文

Vaswani et al., 2017, "Attention is All You Need" — 这篇论文开创了大模型时代。

03

🧩Token

一句话:大模型处理文字的最小单位——不是"字"也不是"词",而是介于两者之间的"碎片"。1 个中文字 ≈ 1-2 个 Token,1 个英文词 ≈ 1-3 个 Token。

🎯 大白话解释

大模型不直接看文字,它先把文字切成"积木块"(Token),再把每个积木块变成数字来处理。

比如 "我爱人工智能" 可能被切成 ["我", "爱", "人工", "智能"] = 4 个 Token。而 "ChatGPT" 可能切成 ["Chat", "G", "PT"] = 3 个 Token。

为什么 Token 很重要?

  • 计费依据:OpenAI 等按 Token 数量收费(GPT-4o 约 $2.5 / 1M 输入 Token)
  • 上下文限制:模型能处理的 Token 总数有上限(如 128K Token)
  • 速度影响:Token 越多,推理越慢

Tokenizer 分词器

不同模型用不同的分词器:GPT 用 tiktoken(BPE 算法),LLaMA 用 SentencePiece。这就是同样一段文字在不同模型里 Token 数不同的原因。

🔗
关联概念:上下文窗口 LLM Embedding
04

📚预训练 Pre-training

一句话:让模型"读完整个互联网"来学习语言的通识能力——就像一个人从小读了几万本书,虽然还没上班,但已经"什么都懂一点"。

🎯 大白话解释

预训练是大模型的"上学阶段"。模型被喂入海量文本(维基百科、书籍、代码、网页...),通过一个简单任务反复练习:

  • GPT 类(自回归):遮住最后一个词,猜下一个词是什么 → "我今天去了____"
  • BERT 类(掩码):随机遮住中间的词,猜被遮住的词 → "我[MASK]去了商场"

通过预测几万亿个词,模型学会了语法、事实知识、逻辑推理、编程能力...这就是"涌现能力"的基础。

预训练 vs 微调

阶段数据目标成本
预训练互联网级别(TB)学通识数百万美元
微调领域数据(MB-GB)学专业几十到几千美元
🔗
关联概念:LLM 微调 RLHF Token
05

💬LLM 大语言模型

一句话:拥有数十亿到万亿参数的 Transformer 模型,通过预训练掌握了"理解和生成人类语言"的能力——ChatGPT、Claude、Gemini 都是 LLM。

🎯 大白话解释

LLM = Large Language Model。你可以把它想成一个"读完了整个图书馆的超级大脑"——你问它任何问题,它都能组织语言回答你。但它的本质其实很简单:给前文,预测下一个 Token,反复预测就生成了一大段文字。

LLM 的能力金字塔

🏔️ 涌现能力(推理、编程、数学)
📝 指令遵循(RLHF / RLHF 后)
📖 语言理解(预训练后)
🧱 文本生成(基础能力)

主要 LLM 家族

  • GPT 系列(OpenAI):GPT-3.5 → GPT-4 → GPT-4o
  • Claude 系列(Anthropic):Claude 2 → Claude 3 → Claude 3.5/4
  • Gemini 系列(Google):Gemini Pro → Gemini Ultra → Gemini 2.5
  • LLaMA 系列(Meta,开源):LLaMA → LLaMA 2 → LLaMA 3
  • DeepSeek(深度求索,开源):DeepSeek-V2 → R1
  • Qwen 系列(阿里,开源):Qwen → Qwen 2.5
06

✍️提示词工程 Prompt Engineering

一句话:给 AI 写"好的工作说明书"——同一个模型,好的提示词能让输出质量翻倍。

🎯 大白话解释

你给 AI 说"帮我写个邮件"和"你是一位资深商务经理,请帮我写一封给客户的道歉邮件,要求语气诚恳、提出补偿方案、控制在 200 字以内"——哪个输出更好?显然后者。这就是提示词工程的价值。

10 大常用技巧

技巧一句话示例
角色扮演给 AI 设定身份"你是 10 年经验的 Python 工程师"
Few-shot给几个示例"输入:苹果→输出:水果; 输入:猫→输出:?"
Chain-of-Thought让 AI 一步步想"请一步步分析这道数学题"
结构化输出指定输出格式"返回 JSON 格式"
约束边界明确限制"200 字以内""只用中文"
07

🔍RAG 检索增强生成

一句话:让大模型回答之前先"翻书查资料"——解决"模型不知道你公司内部知识"和"信息过时"两大问题。

🎯 大白话解释

LLM 的知识有两个致命缺陷:①训练数据有截止日期(不知道最新信息);②不知道你的私有数据。

RAG 的解法就像"开卷考试":先把你的文档做成"参考书"存起来,AI 回答问题前先从参考书里找到最相关的段落,然后基于找到的内容组织回答——这样就不会"瞎编"了。

RAG 四步流程

📄 文档 ✂️ 分块 🔢 Embedding 向量化 🗄️ 存入向量数据库
↓ 用户提问时 ↓
❓ 问题 🔢 问题向量化 🔍 向量检索 Top-K 🤖 LLM 基于检索结果生成回答
💡
RAG vs 微调:RAG 像"开卷考试"(实时查资料),微调像"上培训班"(把知识学进脑子里)。大多数场景建议先用 RAG,成本低、效果快、知识可随时更新。
08

🗄️向量数据库 Vector Database

一句话:专门用来存储和搜索"语义向量"的数据库——传统数据库按关键词搜,向量数据库按"意思相近"搜。

🎯 大白话解释

传统数据库搜"苹果"只能找到包含"苹果"两个字的文档。但向量数据库搜"苹果"能同时找到"Apple"、"水果"、"iPhone"——因为它们语义上相关

原理:先用 Embedding 模型把每段文字变成一个高维数字向量(比如 1536 维),存入向量数据库。搜索时也把查询变成向量,然后用"余弦相似度"找到最相似的几个结果。

主流向量数据库

名称类型特点
FAISS库(Meta 开源)速度极快,纯内存,适合原型
Chroma嵌入式数据库轻量,Python 友好,开发首选
Pinecone云服务全托管,自动扩缩容
Weaviate开源数据库支持混合搜索(向量 + 关键词)
Milvus开源数据库大规模向量检索,CNCF 项目
🔗
关联概念:Embedding RAG
09

🔧微调训练 Fine-tuning

一句话:在预训练好的通用大模型基础上,用你自己的数据继续训练,让它变成你领域的"专家"——就像让一个博士去读行业培训班。

🎯 大白话解释

预训练的 LLM 像一个"博学的通才"——什么都懂一点,但不够专业。如果你想让它精通医疗问诊、法律咨询、或者你公司的客服话术,就需要用领域数据继续训练它。

微调的三个层次

  • 全量微调(Full Fine-tuning):调整模型所有参数。效果最好但成本巨大(需要多张 A100 GPU)
  • LoRA / QLoRA:只训练 0.1%-1% 的额外参数。效果接近全量微调,成本低 10-100 倍,是目前主流方案
  • Adapter:在模型层之间插入小型可训练模块

微调数据格式示例

// 指令微调数据(JSON Lines 格式)
{"instruction": "判断这条评论是正面还是负面",
 "input": "这家餐厅的菜太难吃了",
 "output": "负面"}
{"instruction": "判断这条评论是正面还是负面",
 "input": "服务态度超级好!",
 "output": "正面"}
10

📦量化 Quantization

一句话:把模型的数字精度从 32 位压缩到 8 位甚至 4 位——体积缩小 4-8 倍,能在普通电脑上跑大模型,质量损失很小。

🎯 大白话解释

模型的每个参数原本是一个 32 位浮点数(像"3.141592653589793"),量化就是把它简化为 8 位甚至 4 位(像"3.14"甚至"3")。精度损失了一点点,但体积直接缩小 4-8 倍

这就像把高清电影压缩成标清——文件小了 80%,但肉眼几乎看不出区别。

量化方案对比

方案精度70B 模型显存质量损失
FP16(无量化)16-bit~140 GB
INT88-bit~70 GB极小
GPTQ / AWQ4-bit~35 GB
GGUF (Q4_K_M)4-bit 混合~35 GB (CPU 可跑)
💡
实用建议:想在 Mac / 普通电脑本地跑大模型?用 llama.cpp + GGUF 格式的 4-bit 量化模型,7B 模型只需 4GB 内存就能跑。
🔗
关联概念:微调 LoRA LLM | 📖 深度页面
11

📞Function Calling 函数调用

一句话:让大模型能"打电话叫外援"——模型判断需要查天气、查数据库、发邮件时,输出结构化的函数调用指令,由程序执行后把结果喂回模型。

🎯 大白话解释

LLM 本身只会"说话",不能真的去搜网页或查数据库。Function Calling 就是给它一份"可以打的电话列表"——

  • 你告诉模型:"你可以调用 get_weather(city) 查天气"
  • 用户问"北京今天多少度?",模型不是瞎猜,而是输出:{"name":"get_weather","arguments":{"city":"北京"}}
  • 你的程序执行这个函数,拿到真实天气数据,再喂回给模型
  • 模型基于真实数据回答:"北京今天 15°C,多云"

执行流程

用户提问 LLM 决定调哪个函数 程序执行函数 结果回传 LLM 生成最终回答

Function Calling 是 ToolsAgent 的底层机制——没有它,Agent 就只能"空想",不能"做事"。

🔗
关联概念:Tools Agent MCP
12

🔧Tools 工具

一句话:Agent 可以使用的"外部能力"——搜索引擎、计算器、数据库、API、文件系统等,每个都被封装成一个标准化的 Tool。

🎯 大白话解释

如果 Agent 是"大脑",Tools 就是"手和脚"。大脑想查东西时用搜索 Tool,想算数时用计算器 Tool,想存文件时用文件 Tool。

每个 Tool 包含三要素:名称(做什么)、描述(什么时候用)、参数 Schema(需要传什么)。模型根据描述决定调用哪个 Tool。

常见 Tool 类型

  • 信息获取:网络搜索、维基百科、天气查询
  • 数据操作:SQL 查询、API 调用、文件读写
  • 代码执行:Python REPL、Shell 命令
  • 内容生成:图片生成、PDF 创建
  • 通信:发邮件、发消息、创建日程
🔗
关联概念:Function Calling Agent Skills MCP
13

🤖Agent 智能体

一句话:一个能自主思考、自主决策、自主行动的 AI 系统——不再是你问它答,而是给它一个目标,它自己规划步骤、调用工具、完成任务。

🎯 大白话解释

普通 LLM 像一个"只会回答问题的客服",而 Agent 像一个"能帮你做事的助理"。你说"帮我订明天上海的酒店",Agent 会:

  1. 🧠 思考:需要查航班时间、搜索酒店、比较价格
  2. 🔍 行动:调用搜索工具查酒店
  3. 👁️ 观察:分析搜索结果
  4. 🔄 循环:信息够了吗?不够继续搜
  5. 📤 完成:推荐最合适的酒店

Agent = LLM + Tools + 循环推理

🧠 LLM(大脑) + 🔧 Tools(手脚) + 🔄 Agent Loop(循环推理) = 🤖 Agent
14

Skills 技能

一句话:Agent 的"技能包"——比 Tool 更高级,包含专业知识 + 标准流程 + 可执行脚本,让 Agent 从"通才"变成"专家"。

🎯 大白话解释

如果 Tool 是"锤子、螺丝刀"这样的单个工具,那 Skill 就是一整套"装修指南"——不仅包含工具,还包含专业知识、操作步骤和注意事项

比如一个"Excel 数据分析 Skill"可能包含:读取 Excel 的工具 + 数据清洗的最佳实践 + 可视化的标准流程 + 常见错误的处理方式。Agent 加载这个 Skill 后就变成了"数据分析专家"。

Skill vs Tool 对比

维度ToolSkill
粒度单个操作完整能力包
包含函数 + 参数描述知识 + 流程 + 工具 + 脚本
类比锤子木工培训课程
举例search_web()"学术论文写作 Skill"
🔗
关联概念:Tools Agent MCP
15

🔌MCP 协议

一句话:AI 世界的"USB-C 标准"——Anthropic 提出的开放协议,让任何工具和任何 AI 应用能即插即用地连接。

🎯 大白话解释

以前:每个 AI 应用想用 GitHub,就得自己写 GitHub 集成代码;想用 Slack,又得写 Slack 的。10 个 AI 应用 × 10 个工具 = 100 个集成。

MCP 之后:GitHub 做一个 MCP Server,所有 AI 应用装一个 MCP Client 就能直接用。10 + 10 = 20 个集成。这就是标准化的力量

MCP 三大原语

  • Tools:可执行的操作(创建 Issue、发送邮件)——模型调用,人确认
  • Resources:可读取的数据(文件内容、数据库查询)——应用控制
  • Prompts:可复用的提示词模板——用户选择
16

🧩Agent 设计模式

一句话:教 Agent "怎么做事"的方法论——四种核心模式对应四种工作方式。

🎯 四种模式速览

模式人话类比工作方式适合场景
ReAct边想边做思考→行动→观察→循环简单查询 + 工具调用
📋 Plan-Execute先列提纲再动笔规划全部步骤→逐步执行多步骤复杂任务
🪞 Reflection写完检查再改生成→自我批评→改进高质量文档/代码
👥 Multi-Agent组团分工合作多个专家各负其责大型复杂项目
💡
选型原则:从最简单的 ReAct 开始,复杂了再升级。"不要一开始就上 Multi-Agent——过早优化是万恶之源。"
🔗
关联概念:Agent Tools | 📖 深度页面
17

🔢Embedding 向量嵌入

一句话:把文字/图片/音频变成一串数字(向量),让计算机能理解"语义相似度"——"猫"和"喵星人"的向量会很接近,和"汽车"的向量会很远。

🎯 大白话解释

计算机不懂中文,只懂数字。Embedding 就是"翻译器"——把一段文字翻译成一个数字列表(比如 1536 个数字)。翻译的神奇之处在于:意思相近的文字,翻译出来的数字列表也相近

# "我喜欢猫" → [0.12, -0.35, 0.88, ...]  ← 1536 个数字
# "我爱喵星人" → [0.11, -0.34, 0.87, ...]  ← 很接近!
# "今天股市大涨" → [0.95, 0.22, -0.60, ...]  ← 完全不同

这就是 RAG 能"按语义搜索"的底层原理。常用的 Embedding 模型:OpenAI text-embedding-3-small、开源 bge-large-zh

🔗
关联概念:向量数据库 RAG Token
18

📏上下文窗口 Context Window

一句话:大模型一次能"看到"的最大文本量——就像工作台的大小,决定了你能同时摊开多少资料。

🎯 大白话解释

模型每次处理请求时,输入的所有内容 + 输出的内容都要装进一个"窗口"里。窗口满了就装不下了。

主流模型上下文窗口

模型上下文窗口约等于
GPT-4o128K Token~一本 300 页的书
Claude 3.5 Sonnet200K Token~1.5 本书
Gemini 2.5 Pro1M Token~7 本书

上下文不够时怎么办?→ 用 RAG(只检索最相关的段落塞进窗口)或 Summary Memory(把历史对话压缩成摘要)。

🔗
关联概念:Token RAG 提示词
19

🌫️幻觉 Hallucination

一句话:大模型一本正经地"胡说八道"——输出的内容看起来很自信、逻辑通顺,但实际上是编造的。

🎯 大白话解释

模型的本质是"预测下一个最可能的词",不是"回忆确定知道的事实"。当它不确定答案时,不会说"我不知道",而是会生成一个"统计上看起来合理"的回答——即使内容是假的。

常见幻觉类型

  • 事实错误:编造不存在的论文、虚构人物经历
  • 引用造假:给出格式正确但不存在的论文 DOI
  • 逻辑矛盾:前后文自相矛盾

怎么减少幻觉?

  • RAG:让模型基于真实文档回答,减少"瞎编"
  • 要求引用出处:提示词中加"请标注信息来源"
  • 温度调低:temperature 设为 0-0.3,减少随机性
  • Reflection:让模型自我检查再输出
🔗
关联概念:RAG LLM 提示词
20

👤RLHF 人类反馈强化学习

一句话:让人类当"老师"给模型的回答打分,模型根据打分调整自己——这就是 ChatGPT 从"会说话"变成"说人话"的关键步骤。

🎯 大白话解释

预训练后的模型像一个"知识渊博但说话不着调的学者"——能力有了,但输出可能啰嗦、有害、或不按指令来。RLHF 就是请人类标注员给模型的多个回答打分(哪个更好),然后用强化学习让模型学会生成人类偏好的回答

RLHF 三步流程

① SFT 监督微调 ② 训练奖励模型(人类打分) ③ PPO 强化学习优化
🔗
关联概念:预训练 微调 LLM
21

🎯LoRA 低秩适配

一句话:微调大模型的"省钱神器"——不动原模型的数十亿参数,只训练额外插入的一小组参数(约 0.1%-1%),效果接近全量微调,成本低 10-100 倍。

🎯 大白话解释

想象你有一本百科全书(原模型),你不想重印整本书,只想在关键页面贴上"便签纸"做标注。LoRA 就是这些"便签纸"——原书不动,只训练便签纸上的内容

QLoRA 更进一步:先把原模型量化到 4-bit(缩小体积),再贴 LoRA 便签——这样 7B 模型用一张 RTX 4090 就能微调。

🔗
关联概念:微调 量化 | 📖 深度页面
22

🎨多模态 Multimodal

一句话:让 AI 不仅能读文字,还能看图片、听声音、理解视频——从"只有耳朵"变成"五感齐全"。

🎯 大白话解释

之前的 LLM 像一个"只能打字聊天的人"。多模态模型则像"坐在你旁边的真人"——你给它看一张图,它能描述内容;你给它一段语音,它能转成文字并回答。

主要模态

  • 文本 → 图像:Stable Diffusion、DALL-E、Midjourney
  • 图像 → 文本:GPT-4V、LLaVA、CLIP
  • 语音 → 文本:Whisper
  • 文本 → 语音:TTS(Text-to-Speech)
  • 文本 → 视频:Sora、Runway

GPT-4o、Gemini 2.5 这些最新模型都是"原生多模态"——一个模型同时处理文字、图片、音频、视频。