🤖 AI 学习指南

从人工智能的发展历程、核心概念到真实案例,
帮助你系统性地理解 AI 的全貌

开始探索 ↓

📖 AI 发展历史

1950s

AI 的诞生

1950 年,阿兰·图灵发表论文《Computing Machinery and Intelligence》,提出著名的"图灵测试"——如果一台机器能通过对话让人无法分辨它是人还是机器,就可以认为它具有智能。

1956 年达特茅斯会议(Dartmouth Conference)正式确立"人工智能"这一学科名称。约翰·麦卡锡、马文·明斯基等先驱聚集一堂,标志着 AI 作为独立学科的诞生。

出处:Turing, A. M. (1950). "Computing Machinery and Intelligence." Mind, 59(236), 433-460.; McCarthy, J. et al. (1955). "A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence."
1960s-1970s

第一次 AI 繁荣与寒冬

早期研究者充满信心,开发了 ELIZA(1966,最早的聊天机器人之一)和 Shakey(首个能推理的移动机器人)。但由于计算能力不足、数据匮乏以及对问题难度的低估,研究陷入瓶颈。1969 年明斯基的《Perceptrons》一书指出了感知机的局限,导致研究经费大幅削减,进入第一个"AI 寒冬"。

出处:Weizenbaum, J. (1966). "ELIZA—A Computer Program for the Study of Natural Language Communication Between Man and Machine." Communications of the ACM, 9(1), 36-45.; Minsky, M. & Papert, S. (1969). Perceptrons. MIT Press.
1980s

专家系统的兴起

基于规则的"专家系统"成为主流,如 MYCIN(用于血液疾病诊断,准确率约 69%)。日本启动"第五代计算机"计划。但随着系统规模扩大、维护困难、知识获取瓶颈等问题,80 年代末进入第二次 AI 寒冬。

出处:Buchanan, B. G. & Shortliffe, E. H. (1984). Rule-Based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project. Addison-Wesley.
1990s-2000s

统计学习与深度学习的萌芽

机器学习方法开始取代符号逻辑。1997 年 IBM 的"深蓝"(Deep Blue)击败国际象棋世界冠军卡斯帕罗夫,震动世界。支持向量机(SVM)、随机森林等算法成为主流。2006 年,Geoffrey Hinton 提出"深度信念网络"预训练方法,重新点燃了神经网络的研究热情。

出处:Campbell, M. et al. (2002). "Deep Blue." Artificial Intelligence, 134(1-2), 57-83.; Hinton, G. E., Osindero, S. & Teh, Y.-W. (2006). "A Fast Learning Algorithm for Deep Belief Nets." Neural Computation, 18(7), 1527-1554.
2012

深度学习爆发——ImageNet 时刻

Alex Krizhevsky 的 AlexNet 在 ImageNet 图像识别竞赛中以巨大优势夺冠,将错误率从 26% 降至 15.3%。GPU 加速训练 + 大数据 + 深层卷积神经网络(CNN)的组合证明了深度学习的威力,AI 进入高速发展期。

出处:Krizhevsky, A., Sutskever, I. & Hinton, G. E. (2012). "ImageNet Classification with Deep Convolutional Neural Networks." NeurIPS 2012.
2016-2017

AlphaGo 震撼世界

Google DeepMind 的 AlphaGo 以 4:1 击败围棋世界冠军李世石,随后 AlphaGo Zero 仅通过自我对弈就达到了更高水平。这标志着强化学习 + 深度学习的巨大潜力。同年,Transformer 架构横空出世。

出处:Silver, D. et al. (2016). "Mastering the Game of Go with Deep Neural Networks and Tree Search." Nature, 529, 484-489.; Vaswani, A. et al. (2017). "Attention Is All You Need." NeurIPS 2017.
2018-2022

大规模语言模型时代

OpenAI 发布 GPT 系列(2018: GPT-1, 2019: GPT-2, 2020: GPT-3),参数规模从 1.17 亿飙升至 1750 亿。预训练 + 微调范式成为主流。Stable Diffusion(2022)引爆 AI 绘画,DALL·E 2 同年发布。AI 内容生成能力出现质的飞跃。

出处:Radford, A. et al. (2018). "Improving Language Understanding by Generative Pre-Training." OpenAI.; Radford, A. et al. (2019). "Language Models are Unsupervised Multitask Learners." OpenAI.; Brown, T. et al. (2020). "Language Models are Few-Shot Learners." NeurIPS 2020.
2022-2026

ChatGPT 时代与多模态 AI

2022 年 11 月 ChatGPT 发布,两个月用户突破 1 亿,掀起全球 AI 热潮。GPT-4(2023)支持多模态输入,Claude、Gemini、Llama 等模型相继发布。AI Agent、代码生成(Copilot)、RAG(检索增强生成)等技术快速成熟。AI 正从"工具"进化为"协作者"。

出处:OpenAI (2023). "GPT-4 Technical Report." arXiv:2303.08774; Google (2023). "Gemini: A Family of Highly Capable Multimodal Models." arXiv:2312.11805.

🧠 核心概念

📊

机器学习(ML)

让计算机从数据中自动学习规律,而非被明确编程。核心思路:给定数据 → 训练模型 → 做出预测或决策。

🎯

监督学习

用"有标签"的数据训练模型。例如:给模型看 10,000 张标注了"猫""狗"的图片,它就能学会区分猫和狗。

🔍

无监督学习

从"无标签"数据中发现隐藏结构。例如:对用户行为数据做聚类,自动发现不同的用户群体。

🎮

强化学习

智能体通过与环境交互获得"奖励/惩罚"来学习最优策略。典型代表:AlphaGo、机器人控制。

🕸️

神经网络

模拟生物神经元的数学模型。由输入层、隐藏层、输出层组成,通过调节连接权重来学习。

🧬

深度学习

使用多层(深层)神经网络的机器学习方法。层数越多,能提取的特征越抽象,能力越强。

💬

自然语言处理(NLP)

让计算机理解、生成人类语言的技术。应用包括机器翻译、文本摘要、聊天机器人等。

👁️

计算机视觉(CV)

让计算机"看懂"图像和视频。核心任务:图像分类、目标检测、图像分割。

🔄

Transformer

2017 年提出的架构,核心是"自注意力机制"(Self-Attention),能并行处理序列数据,是 GPT、BERT 等大语言模型的基础。

🤖

大语言模型(LLM)

参数量巨大(数十亿到数万亿)、在海量文本上训练的语言模型。具备理解、推理、生成文本等通用能力。

🔗

RAG(检索增强生成)

将外部知识库检索与大模型生成结合,让 AI 回答更准确、减少"幻觉"。

🎨

生成式 AI

能创造全新内容(文本、图像、音频、代码)的 AI。代表产品:ChatGPT、Midjourney、Stable Diffusion。

🔑 关键区别:传统编程 vs 机器学习

传统编程

输入数据 + 人工编写规则 → 输出结果

例:if 温度 > 37.5 then 提示发烧

机器学习

输入数据 + 已知结果 → AI 自动学出规则

例:给定病历 → AI 学会诊断疾病

出处:Mitchell, T. M. (1997). Machine Learning. McGraw-Hill.

🔗 LLM · RAG · Agent 关系

理解这三者的关系是掌握现代 AI 应用的关键。简单来说:LLM 是大脑,RAG 是记忆库,Agent 是双手。它们层层递进,共同构成完整的 AI 应用能力。

第 4 层:Agent — 自主决策与执行
🤖 Agent(规划 + 行动 + 工具调用)
▼ 消费 / 调用
第 3 层:RAG — 知识增强
📄 检索器 📊 向量数据库 📝 重排序器
▼ 增强上下文
第 2 层:LLM — 理解与生成
🧠 GPT / Claude / Qwen / DeepSeek
▼ 基础模型
第 1 层:Foundation — 基础设施
Python Transformer PyTorch GPU

三元关系详解

维度 🧠 LLM(大语言模型) 🔗 RAG(检索增强生成) 🤖 Agent(智能体)
核心定义 在海量文本上训练的超大规模神经网络 让 LLM 在回答前先检索外部知识的技术 能自主思考、规划、调用工具完成任务的系统
解决的问题 语言理解与文本生成 知识过时、幻觉、私有数据缺失 单次对话无法完成复杂、多步骤任务
能力边界 只能"说"(生成文本) 能"说" + "记"(引用外部知识) 能"说" + "记" + "做"(执行行动)
典型应用 ChatGPT 对话、文案写作、翻译 企业知识库问答、文档检索助手 自动化办公、代码开发、数据分析
关键框架 OpenAI API、vLLM、Ollama LangChain、LlamaIndex LangGraph、CrewAI、AutoGen
类比 一个博学但记性不太好的人 博学的人 + 一座图书馆 博学的人 + 图书馆 + 双手 + 行动力

🔄 三者如何协同工作?

以一个实际场景为例:"帮我分析这份财报,找出利润下降的原因,然后写一封邮件给管理层汇报。"

1. LLM 层:理解用户意图,解析"财报""利润下降""管理层汇报"等关键语义。

2. RAG 层:从向量数据库中检索相关财报文档片段,提供给 LLM 作为上下文。

3. Agent 层:
  ① 规划:拆解任务 → 读财报 → 提取关键数据 → 分析原因 → 撰写邮件
  ② 行动:调用 PDF 解析工具读取财报 → 调用数据分析工具计算利润趋势
  ③ 生成:结合 LLM + RAG 上下文,生成分析报告和邮件
  ④ 执行:调用邮件 API 发送邮件(或在 Slack 通知管理层)
出处:Yao, S. et al. (2022). "ReAct: Synergizing Reasoning and Acting in Language Models." ICLR 2023. arXiv:2210.03629; Lewis, P. et al. (2020). "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks." NeurIPS 2020. arXiv:2005.11401.

🤖 AI Agent 深度解析

4.1 什么是 AI Agent?

AI Agent(智能体)是以 LLM 为"大脑",具备自主感知环境、推理规划、使用工具、执行行动并从反馈中学习的能力的系统。它不只是"聊天",而是能真正"干活"。

🧩 Agent 核心组成

🧠
LLM 大脑

负责理解、推理、决策

📋
规划器

分解任务、制定步骤

🧰
工具集

搜索、代码执行、API 调用

💾
记忆系统

短期记忆 + 长期记忆

🔁 Agent Loop(智能体循环)

Agent 的核心是一个不断循环的"感知-思考-行动"过程:

用户输入 → 思考(Reasoning)→ 行动(Action)→ 观察(Observation)→ 思考 → 行动 → ... → 最终输出

Agent 不是一次就给出答案,而是在循环中不断调整策略,直到任务完成或达到终止条件。这与人类解决问题的方式非常相似——先想一步,尝试一下,看看结果,再决定下一步。

出处:Yao, S. et al. (2023). "Tree of Thoughts: Deliberate Problem Solving with Large Language Models." NeurIPS 2023. arXiv:2305.10601; Shinn, N. et al. (2023). "Reflexion: Language Agents with Verbal Reinforcement Learning." NeurIPS 2023. arXiv:2303.11366.

4.2 Agent 设计模式

1. ReAct 模式
Reasoning + Acting(推理 + 行动)
思考 → 行动 → 观察 → 思考 → 行动 → ...
最基础、最常用的 Agent 模式。每次思考后立即执行一步行动,根据观察结果调整下一步。像"走一步看一步"的即时策略。
适合:简单任务、单工具调用
缺点:缺乏全局规划,容易走弯路
2. Plan-and-Execute 模式
先规划全局,再逐步执行
规划(全部步骤)→ 执行步骤1 → 执行步骤2 → ... → 反思调整
先让 LLM 生成完整的任务计划,然后按步骤逐一执行。执行中可根据反馈动态调整计划。像"先写攻略,再按攻略行动"。
适合:复杂多步骤任务、需要全局视角
缺点:初始计划可能不完美,需要动态调整
3. Reflection 模式
自我反思与改进
生成结果 → 自我评估 → 发现问题 → 改进重试 → ...
Agent 在完成任务后进行自我评估,发现不足之处并改进。类似于人类做事后的"复盘"。通常与其他模式结合使用。
适合:代码生成、写作优化、高质量输出
缺点:增加延迟,需要额外 LLM 调用
4. Multi-Agent 模式
多智能体协作
分发任务 → Agent A 执行 → Agent B 执行 → 汇总结果
多个专业 Agent 各司其职,通过消息传递协同完成复杂任务。例如:一个负责搜索、一个负责代码、一个负责审核。
适合:大型项目、需要不同专业能力的场景
缺点:协调复杂度高,成本较高
出处:Yao, S. et al. (2023). "ReAct: Synergizing Reasoning and Acting in Language Models." ICLR 2023.; Shinn, N. et al. (2023). "Reflexion." NeurIPS 2023.; Park, J. S. et al. (2023). "Generative Agents." UIST 2023.

4.3 Skills · Tools · MCP · 工作流

🧰 Tools(工具)

Tool 是 Agent 能调用的"外挂能力",让 LLM 从"只会说"进化到"能做事"。

Tool 本质:一段预定义的函数/接口,包含名称、描述、参数格式。

工作流程:
① LLM 分析用户需求 → 判断需要哪个工具
② 生成工具调用请求(函数名 + 参数)
③ 执行工具函数,返回结果
④ LLM 根据工具结果继续推理或回复用户

常见工具类型:

类型说明示例
搜索工具获取实时网络信息Web Search、Brave Search
代码执行运行代码并返回结果Python REPL、Bash
文件操作读写、管理文件文件系统访问、PDF 解析
API 调用连接外部服务邮件发送、数据库查询
浏览器自动化网页操作Playwright、Puppeteer
出处:Schick, T. et al. (2023). "Toolformer: Language Models Can Teach Themselves to Use Tools." NeurIPS 2023. arXiv:2302.04761; OpenAI Function Calling 官方文档 (2023).

✨ Skills(技能包)

Skill 是更高层次的抽象——它是一组 Tools + 领域知识 + 工作流的打包组合。如果说 Tool 是"螺丝刀",那 Skill 就是"维修工具箱"。

Skill vs Tool 对比:

Tool:单一的函数调用
  → 例:search_web(query="天气预报")

Skill:完整的领域能力包
  → 例:「数据分析师」Skill = 读 Excel + 统计计算 + 生成图表 + 撰写报告
出处:OpenClaw Skills 生态; WorkBuddy Agent Skills 设计文档; Claude Computer Use (Anthropic, 2024).

🔌 MCP(Model Context Protocol)

MCP 是 Anthropic 于 2024 年 11 月发布的开放协议,被称为 "AI 界的 USB-C"。它标准化了 AI 模型与外部工具/数据源之间的连接方式。

核心架构:

Host(宿主) → AI 应用(如 Claude Desktop、VS Code Copilot)
Client(客户端) → 宿主内的 MCP 客户端,维护与 Server 的连接
Server(服务端) → 提供 Tools、Resources、Prompts 的服务

通讯方式:基于 JSON-RPC 2.0 协议,支持 stdio 和 SSE 两种传输方式。

MCP 的三大能力:

能力说明类比
Tools模型可调用的函数手(能做动作)
Resources应用可读取的数据源书架(能查资料)
Prompts预定义的提示模板操作手册(引导使用)

截至 2026 年 3 月,MCP SDK 月下载量已达 9700 万+次,已有 5800+ 个 MCP Server。2025 年 12 月,Anthropic 将 MCP 协议捐赠给了开放标准组织。

出处:Anthropic (2024). "Introducing the Model Context Protocol." modelcontextprotocol.io; MCP Roadmap (2026). modelcontextprotocol.io/development/roadmap; "MCP Hits 97M Downloads" (2026). digitalapplied.com.

⚙️ 工作流(Workflow)

工作流是将多个 Agent 步骤编排成固定或半固定的流程,实现自动化任务执行。

工作流 vs Agent 的区别:

Agent(动态):LLM 自主决定下一步做什么,灵活但不可预测。
Workflow(静态):预定义的步骤流程,可控、可复现、易调试。

最佳实践:两者结合——用 Workflow 控制整体流程,在关键节点用 Agent 做灵活决策。

工作流编排框架对比:

框架特点适用场景
LangGraph基于图结构,支持状态管理和循环复杂多步骤 Agent、Agentic RAG
CrewAI角色扮演式多 Agent 协作团队协作型任务
AutoGenMicrosoft 出品,多 Agent 对话研究、多 Agent 实验
Dify可视化工作流编排低代码/无代码用户
出处:LangGraph 官方文档 (langchain-ai.github.io/langgraph); CrewAI 文档; Wu, Q. et al. (2023). "AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation." arXiv:2308.08155.

4.4 如何搭建一个 Agent?

🏗️ Agent 搭建全流程

Step 1:选择基础模型
  • 商业 API:GPT-4o / Claude 3.5 / Gemini 2.0(开箱即用,质量高)
  • 开源模型:Qwen2.5 / DeepSeek-V3 / Llama 3(成本低,可私有化部署)
  • 本地运行:通过 Ollama 或 vLLM 部署

Step 2:定义 Agent 能力(Tools)
  • 确定任务需要哪些工具(搜索、代码、文件、API 等)
  • 用 MCP 或 Function Calling 规范定义工具接口
  • 编写工具函数的实现代码

Step 3:选择设计模式
  • 简单任务 → ReAct(LangChain Agent)
  • 复杂任务 → Plan-and-Execute(LangGraph)
  • 多人协作 → Multi-Agent(CrewAI / AutoGen)

Step 4:接入记忆系统
  • 短期记忆:对话上下文窗口(History)
  • 长期记忆:向量数据库(Pinecone / Chroma / FAISS)

Step 5:测试与优化
  • 端到端测试各种输入场景
  • 优化 Prompt 和工具描述
  • 加入错误处理和降级策略

最小 Agent 示例(Python + LangChain):

from langchain_openai import ChatOpenAI
from langchain.agents import create_react_agent, AgentExecutor
from langchain.tools import tool

# 1. 定义工具
@tool
def search(query: str) -> str:
    """搜索互联网获取信息"""
    return f"搜索结果:{query} 的相关信息..."

@tool
def calculator(expression: str) -> str:
    """计算数学表达式"""
    return str(eval(expression))

# 2. 创建 Agent
llm = ChatOpenAI(model="gpt-4o")
tools = [search, calculator]
agent = create_react_agent(llm, tools, prompt)
executor = AgentExecutor(agent=agent, tools=tools)

# 3. 运行
result = executor.invoke({
    "input": "搜索2025年中国GDP,然后计算同比增长率"
})
print(result["output"])
出处:LangChain 官方文档; LangGraph Tutorials (langchain-ai.github.io/langgraph).

💡 实战案例详解

医疗健康 计算机视觉

🏥 案例一:AI 辅助眼底病变筛查

Google Health 和 DeepMind 开发的 AI 系统,通过分析眼底照片来检测糖尿病视网膜病变(DR),这是导致失明的主要原因之一。

如何运作:
① 收集 12 万张由专业眼科医生标注的眼底照片
② 用深度卷积神经网络(CNN)进行训练
③ 模型学会识别微血管瘤、出血点等病变特征
④ 新照片输入后,AI 输出病变概率和分级
关键成果:
• 灵敏度达 87-90%,特异性达 98%(FDA 2018 批准
• 在印度部署的试点中,准确率与专业眼科医生相当
• 筛查时间从数小时缩短到几分钟
出处:Gulshan, V. et al. (2016). "Development and Validation of a Deep Learning Algorithm for Detection of Diabetic Retinopathy in Retinal Fundus Photographs." JAMA, 316(22), 2402-2410. doi:10.1001/jama.2016.17216
自动驾驶 深度学习 + 强化学习

🚗 案例二:Tesla Autopilot 自动驾驶

Tesla 的自动驾驶系统利用安装在车辆周围的 8 个摄像头、12 个超声波传感器和 1 个前向雷达,实时感知周围环境并做出驾驶决策。

如何运作:
① 摄像头持续采集道路图像(约 2,300 帧/秒)
② 神经网络进行实时目标检测(车辆、行人、车道线、交通标志)
③ 规划模块基于检测结果计算安全行驶路径
④ 控制模块将指令发送到转向和制动系统
关键技术:
• 端到端深度学习(图像输入 → 转向角度输出)
• 影子模式(Shadow Mode):在后台运行 AI 决策,与人类驾驶对比学习
• 基于 Transformer 的占用网络(Occupancy Network)进行 3D 场景理解
出处:Tesla AI Day 2022 演示资料; Tesla (2023). "Tesla Full Self-Driving Beta" 技术博客; Kanade, T. et al. (2023). 多篇关于端到端自动驾驶的论文综述
自然语言处理 大语言模型

💬 案例三:ChatGPT 智能对话系统

OpenAI 的 ChatGPT 基于 GPT 系列大语言模型,通过人类反馈强化学习(RLHF)进行对齐,使其回答更加有用、安全、符合人类偏好。

训练流程(三阶段):
阶段 1 — 预训练:在海量互联网文本(约 45TB)上训练,学会语言规律和知识。GPT-3.5 参数量约 1750 亿。

阶段 2 — 监督微调(SFT):人工标注员撰写高质量问答对,让模型学会对话格式和回答风格。

阶段 3 — RLHF:① 训练一个"奖励模型"来模拟人类偏好;② 用 PPO 算法优化对话策略,让模型生成更符合人类期望的回答。
影响力:
• 发布 2 个月用户突破 1 亿,成为史上增长最快的消费级应用
• 推动了 AI Agent、代码生成、内容创作等新兴领域的爆发
• 引发了全球对 AI 安全和伦理的大讨论
出处:Ouyang, L. et al. (2022). "Training language models to follow instructions with human feedback." NeurIPS 2022. arXiv:2203.02155; OpenAI Blog (2022). "ChatGPT: Optimizing Language Models for Dialogue."
创意设计 扩散模型

🎨 案例四:Stable Diffusion AI 绘画

Stable Diffusion 是一种基于扩散模型(Diffusion Model)的图像生成 AI。用户输入文字描述(Prompt),就能生成高质量图像。

核心原理:
VAE(变分自编码器):将图像压缩到低维"潜空间",大幅降低计算成本
U-Net:在潜空间中逐步去除噪声(去噪过程)
CLIP 文本编码器:将文字描述转换为向量,引导生成方向
扩散过程:从纯噪声开始,经过数十步去噪,最终生成清晰图像
关键优势:
• 可在消费级 GPU 上运行(最低 6GB 显存)
• 完全开源,社区生态繁荣(ControlNet、LoRA 等扩展)
• 支持图生图、局部重绘、风格迁移等多种创作模式
出处:Rombach, R. et al. (2022). "High-Resolution Image Synthesis with Latent Diffusion Models." CVPR 2022. arXiv:2112.10752; CLIP: Radford, A. et al. (2021). "Learning Transferable Visual Models From Natural Language Supervision." ICML 2021.
科学研究 深度学习 + 生物信息

🧬 案例五:AlphaFold 蛋白质结构预测

DeepMind 的 AlphaFold2 解决了生物学 50 年来的重大挑战——蛋白质三维结构预测。蛋白质的功能由其折叠结构决定,而实验室测定一个结构可能需要数月甚至数年。

如何运作:
Evoformer 模块:利用注意力机制分析氨基酸序列之间的进化关系(MSA)和空间关系
结构模块:迭代生成蛋白质三维原子坐标
③ 在 CASP14 竞赛中,GDT 分数达到 92.4(远超第二名)
影响力:
• 已预测超过 2 亿个蛋白质结构(几乎覆盖所有已知蛋白质)
• 将生物学家的结构解析时间从数月缩短到分钟
• 推动药物设计、酶工程、合成生物学等领域加速发展
《Nature》2021 年度十大科学突破之一
出处:Jumper, J. et al. (2021). "Highly accurate protein structure prediction with AlphaFold." Nature, 596, 583-589. doi:10.1038/s41586-021-03819-2

🗺️ 大模型学习路径

从零基础到 AI Agent 开发者的推荐学习顺序,每个阶段标注了难度和预计时间。

STEP 1

🐍 Python 编程基础

Python 是 AI 开发的通用语言。掌握基本语法、数据结构、函数、面向对象编程。
⏱️ 2-4 周 难度:⭐ 前置:零基础可学
STEP 2

🧮 数学基础(选学但推荐)

线性代数(矩阵运算)、概率统计、微积分。不需要精通,但理解基本概念有助于后续学习。
⏱️ 2-4 周 难度:⭐⭐ 与 Step 3 可并行
STEP 3

🧠 神经网络与 Transformer 基础

理解神经网络原理,深入学习 Transformer 架构(自注意力机制、编码器-解码器、位置编码)。这是理解大模型的关键。
⏱️ 3-6 周 难度:⭐⭐⭐ 推荐:3Blue1Brown 视频 + 吴恩达课程
STEP 4

💬 提示词工程(Prompt Engineering)

学会编写高质量的 Prompt。掌握 Zero-shot、Few-shot、Chain-of-Thought、角色扮演等技巧。
⏱️ 1-2 周 难度:⭐ 推荐:OpenAI Prompt 指南、Learn Prompting
STEP 5

🔗 LangChain 基础

学习 LLM 应用开发框架。掌握 Chain(调用链)、Memory(记忆)、Output Parser、工具调用等核心概念。
⏱️ 2-3 周 难度:⭐⭐ 推荐:LangChain 官方文档 + LangSmith
STEP 6

🔍 RAG(检索增强生成)

学习文档加载、文本分块、Embedding、向量数据库、相似度检索、重排序。搭建企业知识库问答系统。
⏱️ 2-3 周 难度:⭐⭐⭐ 推荐:LlamaIndex + Chroma/FAISS
STEP 7

📊 LangGraph 与 Agent 开发

用 LangGraph 构建有状态的 Agent 工作流。掌握图结构、节点、边、条件路由、状态管理。实现 ReAct 和 Plan-and-Execute 模式。
⏱️ 3-4 周 难度:⭐⭐⭐⭐ 推荐:LangGraph 官方教程(Studios)
STEP 8

🤖 Agent 进阶(单 Agent → Multi-Agent)

构建完整的 AI Agent 系统。学习 MCP 协议、Tool 开发、多 Agent 协作(CrewAI / AutoGen)、Agent 评估与优化。
⏱️ 3-4 周 难度:⭐⭐⭐⭐ 推荐:CrewAI + AutoGen + MCP SDK
STEP 9

🔧 模型微调(Fine-tuning)

学习 LoRA、QLoRA 等高效微调方法。使用少量特定领域数据,让模型适应你的业务场景。
⏱️ 2-3 周 难度:⭐⭐⭐⭐ 推荐:Hugging Face PEFT + Unsloth
STEP 10

📐 量化(Quantization)

学习模型压缩技术:INT8/INT4 量化、GPTQ、AWQ、GGUF 格式。在保持性能的前提下大幅降低资源需求,实现本地部署。
⏱️ 1-2 周 难度:⭐⭐⭐ 推荐:llama.cpp + Ollama + bitsandbytes
STEP 11

🎨 多模态 AI

跨文本、图像、音频、视频的综合应用。学习 Vision Language Model(VLM)、图文理解、多模态 RAG。
⏱️ 2-4 周 难度:⭐⭐⭐⭐ 推荐:GPT-4V / Claude Vision / Qwen-VL

💡 学习建议:

实战优先:每学一个概念就动手写代码,不要只看理论

快速迭代:先用 API 快速验证想法,再深入底层原理

关注社区:Hugging Face、GitHub、X (Twitter) 上的 AI 开发者社区

总预计时间:约 4-6 个月(全职)/ 6-12 个月(业余)

出处:综合 LangChain Academy、Andrew Ng DeepLearning.AI、Hugging Face NLP Course、菜鸟教程 LangGraph 入门等公开课程与文档整理。

🛠️ 工具与生态

7.1 OpenClaw(龙虾 AI)

开源 AI Agent 个人助理

🦞 OpenClaw — "能干活"的开源 AI 助手

OpenClaw(昵称"龙虾")是 2026 年 GitHub 上最火的开源 AI Agent 项目,拥有 310K+ Stars。它是一个完全开源、自托管的 AI 私人助理,核心理念是:将 AI 大模型的能力接入你日常使用的每一个消息平台。

核心特性:
任务自动化:清理邮箱、管理日历、运行脚本、文件管理、系统命令执行
浏览器自动化:自动操作浏览器,逛网页、填表单、抓取数据
代码开发:代码重构、数据库优化、写测试、安全审计、部署 K8s
多平台集成:微信、Telegram、Discord、Slack、Signal、iMessage 等 30+ 平台
上下文记忆:记住上下文和用户习惯,用得越久越默契
Skill 技能扩展:社区技能商店 + 自定义技能开发
部署方式:
• 支持 macOS / Windows / Linux
• 需 Node.js 22+
• 一键安装:curl -sSL https://openclaw.ai/install.sh | bash
• 支持接入 Claude、GPT、Qwen、Ollama 本地模型等
• 数据完全本地存储,隐私安全
与 MCP 的关系:
OpenClaw 支持通过 MCP 协议接入外部工具和数据源,Skill 生态可以与 MCP Server 互通。
出处:OpenClaw 官网 (openclaws.io/zh/); OpenClaw GitHub (github.com/openclaw); 知乎 "2026最火开源龙虾:OpenClaw 架构拆解" (2026.02.26).

7.2 CLI(命令行工具)

⌨️ AI 开发常用 CLI 工具

CLI(Command Line Interface)是开发者的"超能力",在 AI 开发中尤为重要。以下是常用的 CLI 工具:

工具用途说明
openclaw AI Agent 管理 OpenClaw 的命令行客户端,管理 Agent 配置、技能、守护进程
ollama 本地模型运行 一行命令在本地运行 Llama、Qwen、DeepSeek 等开源模型
uv / pip Python 包管理 安装 AI 相关 Python 库(langchain、transformers 等)
npm / pnpm Node.js 包管理 安装 MCP Server、前端 AI 工具等
git 版本控制 管理 AI 项目代码,协作开发
docker 容器化部署 部署向量数据库、MCP Server、AI 服务
claude / aichat 终端 AI 对话 在命令行中直接与 AI 模型对话
lm-eval 模型评估 在本地评测 LLM 的各项能力指标

💡 CLI 在 AI 开发中的重要性:AI Agent 的核心能力之一就是"执行命令"——通过 CLI 操作文件系统、运行脚本、管理服务。掌握 CLI 是构建强大 Agent 的基础。

出处:Ollama 官方文档 (ollama.com); OpenClaw CLI 文档; LangChain CLI 文档.

7.3 AI Agent 开发生态全景

🌐 技术栈一览

层次工具/框架作用
模型层GPT-4o / Claude / Qwen / DeepSeek / Llama基础 LLM 能力
推理层vLLM / Ollama / llama.cpp / TensorRT-LLM高效推理与本地部署
编排层LangChain / LangGraph / LlamaIndexAgent 编排与 RAG 流程
工具层MCP / Function Calling / OpenClaw Skills标准化工具接入
向量层Chroma / FAISS / Pinecone / Milvus向量存储与检索
评估层LangSmith / TruLens / RAGASAgent 质量评估
平台层Dify / FastGPT / Flowise / Coze低代码/无代码搭建
Agent 层CrewAI / AutoGen / OpenClaw多 Agent 协作与部署

📚 快速术语表

参数
神经网络中可学习的权重和偏置。参数越多,模型容量越大,能力越强(但也更难训练)。
训练/推理
训练 = 模型从数据中学习(耗时耗资源);推理 = 用训练好的模型做预测(快速)。
过拟合
模型在训练数据上表现很好,但在新数据上表现差。就像"死记硬背"而非"真正理解"。
Token
大语言模型处理文本的最小单位。一个中文词通常 1-2 个 token,一个英文词约 1-3 个 token。
上下文窗口
模型一次能处理的最大 token 数量。GPT-4 Turbo 为 128K,Gemini 1.5 Pro 达 1M+。
幻觉
AI 生成看似合理但实际上不正确或编造的内容。这是大语言模型的核心挑战之一。
微调
在预训练模型的基础上,用少量特定任务数据继续训练,让模型适应特定场景。
Embedding
将文本、图像等转换为数值向量的过程。语义相似的词在向量空间中距离更近。
提示工程
通过设计输入 Prompt 来引导 AI 生成更好结果的技术和技巧。
AI Agent
能自主感知环境、做出决策、调用工具完成复杂任务的 AI 系统。被视为 AI 的下一个重要方向。
Agent Loop
Agent 的核心循环:思考(Reasoning)→ 行动(Action)→ 观察(Observation)→ 反复迭代直到完成。
ReAct
最主流的 Agent 设计模式,将推理(Reasoning)与行动(Acting)交替进行,边想边做。
MCP
Model Context Protocol,Anthropic 发布的开放协议,标准化 AI 模型与外部工具/数据源的连接,被称为"AI 界的 USB-C"。
RAG
Retrieval-Augmented Generation(检索增强生成),让 LLM 先检索外部知识再生成回答,减少幻觉。
LangChain
最流行的 LLM 应用开发框架,提供 Chain、Agent、Memory、Tool 等组件,用于快速构建 AI 应用。
LangGraph
LangChain 团队开发的 Agent 编排框架,基于图结构,支持状态管理、循环和复杂工作流。
Function Calling
函数调用,LLM 输出结构化的函数调用请求(而非自然语言),让程序自动执行并返回结果。
量化
将模型参数从高精度(FP32)压缩到低精度(INT8/INT4),大幅降低显存和计算需求,实现本地部署。
LoRA
Low-Rank Adaptation,一种高效微调方法,只训练少量参数即可让模型适应特定任务,成本极低。
多模态
模型能同时理解和生成多种类型的内容(文本、图像、音频、视频)。代表:GPT-4V、Gemini、Claude Vision。
CLI
Command Line Interface(命令行界面),通过文本命令操作计算机。AI Agent 的核心执行能力之一。
Skill
技能包,比 Tool 更高层的抽象。是一组 Tools + 领域知识 + 工作流的打包组合。OpenClaw 的核心概念之一。
向量数据库
专门存储和检索 Embedding 向量的数据库,是 RAG 系统的核心组件。代表:Chroma、FAISS、Pinecone、Milvus。

📋 主要参考资料

📖 入门推荐

🔬 关键论文

🛠️ 框架与工具文档

🌐 在线资源