🤖 AI 学习路径

从零开始系统学习人工智能——14 个知识模块,5 个递进阶段,每一步都有通俗解释和深度内容

14
知识模块
5
学习阶段
100+
代码示例
50+
学术出处

📌 怎么用这份指南?

👆

展开看通俗解释

点击"通俗介绍"按钮,用大白话理解每个概念

📖

点击深入学习

每个模块都有独立的深度页面,含原理、代码、图解

📐

按阶段递进

5 个阶段从易到难,建议按顺序学习

🔗

前后关联

每个深度页面底部有上下页导航,串联整条路径

🗺️ 全景学习路线图

01 机器学习 02 神经网络 03 Transformer 04 大模型 LLM 05 提示词工程 06 RAG 检索增强 07 LangChain 08 LangGraph 09 Agent 模式 10 MCP 协议 11 多 Agent 12 微调量化 13 多模态 14 AI 工具
📚 PHASE 1 — AI 基础理论

万丈高楼平地起。这三个模块帮你建立从"什么是机器学习"到"理解 Transformer"的完整认知基座。

01

📊 机器学习基础

让机器从数据中自动学习规律,不需要人手写每条规则

入门 ⏱ 2-3 小时
📖 深度学习 →
🎯 一句话理解:机器学习就是"喂数据给电脑,让它自己找规律、做预测"——就像你刷了 1000 道数学题之后,看到新题也能猜个八九不离十。

📋 你会学到什么

  • 监督学习:给带答案的数据让机器学(如垃圾邮件分类)
  • 无监督学习:给没有答案的数据让机器自己发现规律(如用户分群)
  • 强化学习:让机器在试错中学习策略(如 AlphaGo 下棋)
  • 经典算法:线性回归、决策树、随机森林、SVM 等

❓ 为什么先学这个

机器学习是 AI 的基石。后面所有高级概念(深度学习、大模型、Agent)都建立在 ML 的基础之上。先理解"学习"的本质,再看"深度学习"和"大模型"才不会迷路。

02

🕸️ 神经网络与深度学习

模仿人脑的神经元结构,让机器能看图、听话、理解语言

入门 ⏱ 3-4 小时
📖 深度学习 →
🎯 一句话理解:神经网络是一群"小工人"(神经元)排成好几层流水线,数据从左边进去,经过层层加工,右边出来的就是答案——层数越多越"深",所以叫"深度学习"。

📋 你会学到什么

  • 感知机 → 多层网络:从最简单的一层到深层网络
  • CNN(卷积神经网络):专门看图的网络,擅长图像识别
  • RNN / LSTM:专门处理序列数据的网络,擅长语言和时序
  • Attention 注意力机制:让网络学会"重点看哪里"
  • 反向传播 & 梯度下降:网络如何从错误中学习

❓ 为什么先学这个

神经网络是通往 Transformer 和大语言模型的必经之路。不理解"层"、"权重"、"注意力"这些概念,后面的 GPT、BERT 就像天书。

03

🔄 Transformer 架构

2017 年改变世界的论文——GPT、BERT、ChatGPT 全都建立在它之上

中级 ⏱ 4-5 小时
📖 深度学习 →
🎯 一句话理解:想象你在读一句话,Transformer 的"自注意力"机制就像你的大脑能同时关注句子中所有词的关系——"小明给小红一本书",你知道"书"是"给"的宾语、"小明"是主语,这就是注意力在做的事。

📋 你会学到什么

  • 自注意力机制(Self-Attention):QKV 计算的直觉和数学
  • 多头注意力:让模型从多个角度"看"同一段文本
  • 位置编码:告诉模型每个词在句子里的位置
  • Encoder-Decoder 结构:翻译、摘要的核心架构
  • "Attention is All You Need":原始论文拆解

❓ 为什么重要

Transformer 是当今几乎所有大模型的基础架构。理解它就理解了 GPT、BERT、Claude、Gemini 的底层原理。这是从"基础"到"大模型"的关键跳板。

基础打好了,进入大模型世界 ↓
🧠 PHASE 2 — 大语言模型

理解大模型如何工作、如何高效使用它、以及如何让它获取外部知识。这是 AI 应用开发的核心技能。

04

💬 大语言模型 LLM

ChatGPT 背后的技术——数十亿参数的"超级文本预测器"

中级 ⏱ 3-4 小时
📖 深度学习 →
🎯 一句话理解:大语言模型就是一个读完了整个互联网的"超级学霸"——你给它半句话,它能猜出后面该说什么。GPT 的本质就是"给前文,猜下一个词",重复这个过程就生成了看起来像人写的文字。

📋 你会学到什么

  • 预训练 & 微调:先读海量文本学通识,再用特定数据学专业
  • GPT 系列演进:从 GPT-1 到 GPT-4o 的参数和能力飞跃
  • RLHF:用人类反馈让模型说话更有用、更安全
  • 涌现能力:模型大到一定程度突然"开窍"的神奇现象
05

✍️ 提示词工程

学会"跟 AI 说话的艺术"——同样的模型,提示词好坏决定输出质量

入门 ⏱ 2-3 小时
📖 深度学习 →
🎯 一句话理解:提示词工程就像"给AI写好工作说明书"——你越清楚地告诉它要做什么、怎么做、什么格式,它干得就越好。一个好的提示词能让 GPT-3.5 的输出质量超过差提示词下的 GPT-4。

📋 你会学到什么

  • Zero-shot / Few-shot:不给例子 vs 给几个例子
  • Chain-of-Thought:让 AI "一步步想",准确率飙升
  • 角色扮演:给 AI 设定身份,输出更专业
  • 结构化输出:让 AI 返回 JSON、表格等格式
06

🔍 RAG 检索增强生成

让大模型能查你自己的文档——解决"模型不知道公司内部知识"的问题

中级 ⏱ 3-4 小时
📖 深度学习 →
🎯 一句话理解:RAG 就像"开卷考试"——模型本身记不住所有知识,但你允许它在回答之前先"翻书查资料",找到相关段落后再组织答案。这样它就能回答关于你公司内部文档、最新新闻等训练数据里没有的问题。

📋 你会学到什么

  • Embedding 向量化:把文本变成数字,让计算机理解语义
  • 向量数据库:FAISS、Chroma、Pinecone 等存储和检索
  • 文档分块策略:怎么把长文档切成合适的小段
  • 检索 + 生成:从"找到相关段落"到"生成准确回答"
理论够了,上手写代码 ↓
⚙️ PHASE 3 — 应用框架

用 LangChain 和 LangGraph 把大模型变成真正能用的应用——从调用 API 到构建复杂 Agent。

07

🔗 LangChain 框架

LLM 应用开发的"瑞士军刀"——把模型、工具、记忆拼装成产品

中级 ⏱ 4-5 小时
📖 深度学习 →
🎯 一句话理解:LangChain 就像"乐高积木"——它把调用大模型、记住对话、搜索网络、查数据库这些能力做成了标准化的"积木块",你只需要把它们拼在一起就能搭出各种 AI 应用。

📋 你会学到什么

  • LCEL 管道语法:用 | 管道符把组件串联
  • Chain 编排:顺序、并行、路由三种模式
  • Memory 记忆:让 AI 记住之前的对话
  • Agent 智能体:让 AI 自己决定调用哪些工具
  • Output Parser:把 AI 输出解析成结构化数据
08

📊 LangGraph Agent 开发

用"画流程图"的方式构建 Agent——可控、可调试、可生产

进阶 ⏱ 5-6 小时
📖 深度学习 →
🎯 一句话理解:如果说 LangChain 的 Chain 是"铁路"(路线固定),那 LangGraph 就是"导航地图"——你画好节点和路线,AI 在图上根据情况选择走哪条路,遇到岔路口(条件判断)还能动态转向。

📋 你会学到什么

  • 图结构编排:State → Node → Edge → Condition 四大概念
  • ReAct Agent 实现:最经典的"思考→行动→观察"循环
  • 状态管理:TypedDict 控制 Agent 的"记忆"
  • Human-in-the-loop:在关键步骤暂停等人确认
框架会用了,理解 Agent 的灵魂 ↓
🤖 PHASE 4 — Agent 智能体

深入 Agent 的设计模式、工具协议和多 Agent 协作——这是 AI 应用的最前沿。

09

🧩 Agent 设计模式

四大经典模式——教 AI 怎么"思考"、"规划"、"反思"和"协作"

进阶 ⏱ 4-5 小时
📖 深度学习 →
🎯 一句话理解:Agent 设计模式就是教 AI "做事的方法论"——ReAct 是"边想边做"(像你一边查资料一边写报告),Plan-Execute 是"先列大纲再动笔",Reflection 是"写完检查一遍再改",Multi-Agent 是"组个团队分工合作"。

📋 你会学到什么

  • ReAct:Thought → Action → Observation 循环
  • Plan-and-Execute:Planner + Executor + Re-planner
  • Reflection:生成 → 批评 → 改进的自我提升
  • Multi-Agent:多个专业 Agent 分工协作
  • 选型决策树:什么场景用哪种模式
10

🔌 MCP 协议

AI 世界的"USB 接口"——让任何工具即插即用地接入大模型

进阶 2024 新 ⏱ 3-4 小时
📖 深度学习 →
🎯 一句话理解:以前每个 AI 应用要用不同工具就得写不同的"转接头"(像每个手机充电器都不一样),MCP 就是 AI 世界的"USB-C 标准"——工具做一次 MCP Server,所有 AI 应用都能直接用。

📋 你会学到什么

  • 三大原语:Tools(执行操作)、Resources(读数据)、Prompts(模板)
  • 传输协议:stdio(本地)和 Streamable HTTP(远程)
  • 构建 MCP Server:用 Python/TypeScript 10 行代码创建
  • 生态:GitHub、PostgreSQL、Slack 等主流工具已支持
11

👥 多 Agent 与工作流

让多个 AI 组成"团队"——分工写代码、搜资料、审查报告

进阶 ⏱ 4-5 小时
📖 深度学习 →
🎯 一句话理解:就像一个公司里有产品经理、工程师、设计师、QA 各司其职一样,多 Agent 系统让不同的 AI "专家"各负责一块——一个搜资料、一个写代码、一个审查质量,合作产出比单个 AI 好得多。

📋 你会学到什么

  • CrewAI:角色驱动的团队协作框架
  • AutoGen:微软的对话式多 Agent 框架
  • LangGraph 多 Agent:用图结构实现灵活协作
  • 5 种协作模式:Supervisor、Sequential、Hierarchical、Debate、Swarm
  • 生产最佳实践:成本控制、死循环防护、调试方案
进入前沿——拓展你的 AI 能力边界 ↓
🚀 PHASE 5 — 前沿技术

微调让模型更专业、多模态让模型看懂图片和视频、AI 工具让你高效落地——选你感兴趣的方向深入。

12

🔧 微调与量化

把通用大模型变成你的"专属模型",还能压缩到手机上跑

进阶 ⏱ 4-5 小时
📖 深度学习 →
🎯 一句话理解:微调就像"让一个博士毕业的通才去读专科"——他已经有很强的基础能力,再喂一些行业数据就能变成领域专家。量化就像"把高清电影压缩成标清"——体积小了好几倍,画质只损失一点点。

📋 你会学到什么

  • LoRA / QLoRA:只训练 1% 的参数就能微调大模型
  • GPTQ / AWQ:4-bit 量化让 70B 模型跑在消费级显卡上
  • GGUF 格式:llama.cpp 生态的本地部署方案
13

🎨 多模态 AI

让 AI 不仅能读文字,还能看图片、听声音、理解视频

中级 前沿 ⏱ 3-4 小时
📖 深度学习 →
🎯 一句话理解:之前的 AI 像"只会读书的学者",多模态 AI 则是"五感齐全的人"——你可以给它一张图让它描述、一段语音让它转文字、一个视频让它总结。GPT-4o、Gemini 都是多模态模型。

📋 你会学到什么

  • 视觉语言模型:CLIP、GPT-4V、LLaVA 如何理解图片
  • 图像生成:Stable Diffusion、DALL-E、Midjourney
  • 语音 AI:Whisper 语音识别、TTS 语音合成
  • 视频理解:从 video-LLM 到 Sora
14

🦞 OpenClaw 与 CLI 工具

用终端命令行和开源工具高效落地 AI 项目

入门 2026 新 ⏱ 2-3 小时
📖 深度学习 →
🎯 一句话理解:CLI 工具就像"AI 的遥控器"——打开终端输入几个命令,就能让 AI 帮你写代码、分析数据、自动化工作流。OpenClaw 是 2026 年最火的开源 AI 平台(超过 310K Stars),一键部署和管理各种 AI 能力。

📋 你会学到什么

  • OpenClaw 龙虾平台:Skill 生态、MCP 集成、一键部署
  • 主流 CLI 工具:Claude Code、Gemini CLI、GitHub Copilot CLI
  • 实战配置:在终端里高效使用 AI 完成真实开发任务