22 个核心概念,每个都有一句话直觉 + 大白话原理 + 关键要点 + 关联概念——从零建立完整 AI 认知体系
想象一条流水线:原材料(数据)从左边进来,经过很多道加工工序(网络层),每道工序提取一些特征,最后右边出来的就是产品(预测结果)。
比如识别猫的图片:第 1 层学会看边缘,第 2 层学会看纹理,第 3 层学会看耳朵、眼睛,第 4 层把这些组合起来——"有尖耳朵 + 竖瞳孔 + 毛茸茸 = 猫!"
读"小明把书给了小红"这句话时,你的大脑能立刻理解"书"和"给"有关系、"小明"是主语——这就是注意力在做的事。
Transformer 的"自注意力机制"让模型同时看整句话中每个词与其他词的关系,不像以前的 RNN 必须从左到右一个词一个词读。这让它处理速度快、理解能力强。
Q 和 K 点乘算出"注意力权重",权重越高说明两个词越相关,然后用权重对 V 加权求和——得到融合了全局信息的新表示。
Vaswani et al., 2017, "Attention is All You Need" — 这篇论文开创了大模型时代。
大模型不直接看文字,它先把文字切成"积木块"(Token),再把每个积木块变成数字来处理。
比如 "我爱人工智能" 可能被切成 ["我", "爱", "人工", "智能"] = 4 个 Token。而 "ChatGPT" 可能切成 ["Chat", "G", "PT"] = 3 个 Token。
不同模型用不同的分词器:GPT 用 tiktoken(BPE 算法),LLaMA 用 SentencePiece。这就是同样一段文字在不同模型里 Token 数不同的原因。
预训练是大模型的"上学阶段"。模型被喂入海量文本(维基百科、书籍、代码、网页...),通过一个简单任务反复练习:
通过预测几万亿个词,模型学会了语法、事实知识、逻辑推理、编程能力...这就是"涌现能力"的基础。
| 阶段 | 数据 | 目标 | 成本 |
|---|---|---|---|
| 预训练 | 互联网级别(TB) | 学通识 | 数百万美元 |
| 微调 | 领域数据(MB-GB) | 学专业 | 几十到几千美元 |
LLM = Large Language Model。你可以把它想成一个"读完了整个图书馆的超级大脑"——你问它任何问题,它都能组织语言回答你。但它的本质其实很简单:给前文,预测下一个 Token,反复预测就生成了一大段文字。
你给 AI 说"帮我写个邮件"和"你是一位资深商务经理,请帮我写一封给客户的道歉邮件,要求语气诚恳、提出补偿方案、控制在 200 字以内"——哪个输出更好?显然后者。这就是提示词工程的价值。
| 技巧 | 一句话 | 示例 |
|---|---|---|
| 角色扮演 | 给 AI 设定身份 | "你是 10 年经验的 Python 工程师" |
| Few-shot | 给几个示例 | "输入:苹果→输出:水果; 输入:猫→输出:?" |
| Chain-of-Thought | 让 AI 一步步想 | "请一步步分析这道数学题" |
| 结构化输出 | 指定输出格式 | "返回 JSON 格式" |
| 约束边界 | 明确限制 | "200 字以内""只用中文" |
LLM 的知识有两个致命缺陷:①训练数据有截止日期(不知道最新信息);②不知道你的私有数据。
RAG 的解法就像"开卷考试":先把你的文档做成"参考书"存起来,AI 回答问题前先从参考书里找到最相关的段落,然后基于找到的内容组织回答——这样就不会"瞎编"了。
传统数据库搜"苹果"只能找到包含"苹果"两个字的文档。但向量数据库搜"苹果"能同时找到"Apple"、"水果"、"iPhone"——因为它们语义上相关。
原理:先用 Embedding 模型把每段文字变成一个高维数字向量(比如 1536 维),存入向量数据库。搜索时也把查询变成向量,然后用"余弦相似度"找到最相似的几个结果。
| 名称 | 类型 | 特点 |
|---|---|---|
| FAISS | 库(Meta 开源) | 速度极快,纯内存,适合原型 |
| Chroma | 嵌入式数据库 | 轻量,Python 友好,开发首选 |
| Pinecone | 云服务 | 全托管,自动扩缩容 |
| Weaviate | 开源数据库 | 支持混合搜索(向量 + 关键词) |
| Milvus | 开源数据库 | 大规模向量检索,CNCF 项目 |
预训练的 LLM 像一个"博学的通才"——什么都懂一点,但不够专业。如果你想让它精通医疗问诊、法律咨询、或者你公司的客服话术,就需要用领域数据继续训练它。
// 指令微调数据(JSON Lines 格式)
{"instruction": "判断这条评论是正面还是负面",
"input": "这家餐厅的菜太难吃了",
"output": "负面"}
{"instruction": "判断这条评论是正面还是负面",
"input": "服务态度超级好!",
"output": "正面"}
模型的每个参数原本是一个 32 位浮点数(像"3.141592653589793"),量化就是把它简化为 8 位甚至 4 位(像"3.14"甚至"3")。精度损失了一点点,但体积直接缩小 4-8 倍。
这就像把高清电影压缩成标清——文件小了 80%,但肉眼几乎看不出区别。
| 方案 | 精度 | 70B 模型显存 | 质量损失 |
|---|---|---|---|
| FP16(无量化) | 16-bit | ~140 GB | 无 |
| INT8 | 8-bit | ~70 GB | 极小 |
| GPTQ / AWQ | 4-bit | ~35 GB | 小 |
| GGUF (Q4_K_M) | 4-bit 混合 | ~35 GB (CPU 可跑) | 小 |
llama.cpp + GGUF 格式的 4-bit 量化模型,7B 模型只需 4GB 内存就能跑。LLM 本身只会"说话",不能真的去搜网页或查数据库。Function Calling 就是给它一份"可以打的电话列表"——
get_weather(city) 查天气"{"name":"get_weather","arguments":{"city":"北京"}}Function Calling 是 Tools 和 Agent 的底层机制——没有它,Agent 就只能"空想",不能"做事"。
如果 Agent 是"大脑",Tools 就是"手和脚"。大脑想查东西时用搜索 Tool,想算数时用计算器 Tool,想存文件时用文件 Tool。
每个 Tool 包含三要素:名称(做什么)、描述(什么时候用)、参数 Schema(需要传什么)。模型根据描述决定调用哪个 Tool。
普通 LLM 像一个"只会回答问题的客服",而 Agent 像一个"能帮你做事的助理"。你说"帮我订明天上海的酒店",Agent 会:
如果 Tool 是"锤子、螺丝刀"这样的单个工具,那 Skill 就是一整套"装修指南"——不仅包含工具,还包含专业知识、操作步骤和注意事项。
比如一个"Excel 数据分析 Skill"可能包含:读取 Excel 的工具 + 数据清洗的最佳实践 + 可视化的标准流程 + 常见错误的处理方式。Agent 加载这个 Skill 后就变成了"数据分析专家"。
| 维度 | Tool | Skill |
|---|---|---|
| 粒度 | 单个操作 | 完整能力包 |
| 包含 | 函数 + 参数描述 | 知识 + 流程 + 工具 + 脚本 |
| 类比 | 锤子 | 木工培训课程 |
| 举例 | search_web() | "学术论文写作 Skill" |
以前:每个 AI 应用想用 GitHub,就得自己写 GitHub 集成代码;想用 Slack,又得写 Slack 的。10 个 AI 应用 × 10 个工具 = 100 个集成。
MCP 之后:GitHub 做一个 MCP Server,所有 AI 应用装一个 MCP Client 就能直接用。10 + 10 = 20 个集成。这就是标准化的力量。
| 模式 | 人话类比 | 工作方式 | 适合场景 |
|---|---|---|---|
| ⚡ ReAct | 边想边做 | 思考→行动→观察→循环 | 简单查询 + 工具调用 |
| 📋 Plan-Execute | 先列提纲再动笔 | 规划全部步骤→逐步执行 | 多步骤复杂任务 |
| 🪞 Reflection | 写完检查再改 | 生成→自我批评→改进 | 高质量文档/代码 |
| 👥 Multi-Agent | 组团分工合作 | 多个专家各负其责 | 大型复杂项目 |
计算机不懂中文,只懂数字。Embedding 就是"翻译器"——把一段文字翻译成一个数字列表(比如 1536 个数字)。翻译的神奇之处在于:意思相近的文字,翻译出来的数字列表也相近。
# "我喜欢猫" → [0.12, -0.35, 0.88, ...] ← 1536 个数字
# "我爱喵星人" → [0.11, -0.34, 0.87, ...] ← 很接近!
# "今天股市大涨" → [0.95, 0.22, -0.60, ...] ← 完全不同
这就是 RAG 能"按语义搜索"的底层原理。常用的 Embedding 模型:OpenAI text-embedding-3-small、开源 bge-large-zh。
模型每次处理请求时,输入的所有内容 + 输出的内容都要装进一个"窗口"里。窗口满了就装不下了。
| 模型 | 上下文窗口 | 约等于 |
|---|---|---|
| GPT-4o | 128K Token | ~一本 300 页的书 |
| Claude 3.5 Sonnet | 200K Token | ~1.5 本书 |
| Gemini 2.5 Pro | 1M Token | ~7 本书 |
上下文不够时怎么办?→ 用 RAG(只检索最相关的段落塞进窗口)或 Summary Memory(把历史对话压缩成摘要)。
模型的本质是"预测下一个最可能的词",不是"回忆确定知道的事实"。当它不确定答案时,不会说"我不知道",而是会生成一个"统计上看起来合理"的回答——即使内容是假的。
预训练后的模型像一个"知识渊博但说话不着调的学者"——能力有了,但输出可能啰嗦、有害、或不按指令来。RLHF 就是请人类标注员给模型的多个回答打分(哪个更好),然后用强化学习让模型学会生成人类偏好的回答。
想象你有一本百科全书(原模型),你不想重印整本书,只想在关键页面贴上"便签纸"做标注。LoRA 就是这些"便签纸"——原书不动,只训练便签纸上的内容。
QLoRA 更进一步:先把原模型量化到 4-bit(缩小体积),再贴 LoRA 便签——这样 7B 模型用一张 RTX 4090 就能微调。
之前的 LLM 像一个"只能打字聊天的人"。多模态模型则像"坐在你旁边的真人"——你给它看一张图,它能描述内容;你给它一段语音,它能转成文字并回答。
GPT-4o、Gemini 2.5 这些最新模型都是"原生多模态"——一个模型同时处理文字、图片、音频、视频。