1950 年,阿兰·图灵发表论文《Computing Machinery and Intelligence》,提出著名的"图灵测试"——如果一台机器能通过对话让人无法分辨它是人还是机器,就可以认为它具有智能。
1956 年达特茅斯会议(Dartmouth Conference)正式确立"人工智能"这一学科名称。约翰·麦卡锡、马文·明斯基等先驱聚集一堂,标志着 AI 作为独立学科的诞生。
出处:Turing, A. M. (1950). "Computing Machinery and Intelligence." Mind, 59(236), 433-460.; McCarthy, J. et al. (1955). "A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence."早期研究者充满信心,开发了 ELIZA(1966,最早的聊天机器人之一)和 Shakey(首个能推理的移动机器人)。但由于计算能力不足、数据匮乏以及对问题难度的低估,研究陷入瓶颈。1969 年明斯基的《Perceptrons》一书指出了感知机的局限,导致研究经费大幅削减,进入第一个"AI 寒冬"。
出处:Weizenbaum, J. (1966). "ELIZA—A Computer Program for the Study of Natural Language Communication Between Man and Machine." Communications of the ACM, 9(1), 36-45.; Minsky, M. & Papert, S. (1969). Perceptrons. MIT Press.基于规则的"专家系统"成为主流,如 MYCIN(用于血液疾病诊断,准确率约 69%)。日本启动"第五代计算机"计划。但随着系统规模扩大、维护困难、知识获取瓶颈等问题,80 年代末进入第二次 AI 寒冬。
出处:Buchanan, B. G. & Shortliffe, E. H. (1984). Rule-Based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project. Addison-Wesley.机器学习方法开始取代符号逻辑。1997 年 IBM 的"深蓝"(Deep Blue)击败国际象棋世界冠军卡斯帕罗夫,震动世界。支持向量机(SVM)、随机森林等算法成为主流。2006 年,Geoffrey Hinton 提出"深度信念网络"预训练方法,重新点燃了神经网络的研究热情。
出处:Campbell, M. et al. (2002). "Deep Blue." Artificial Intelligence, 134(1-2), 57-83.; Hinton, G. E., Osindero, S. & Teh, Y.-W. (2006). "A Fast Learning Algorithm for Deep Belief Nets." Neural Computation, 18(7), 1527-1554.Alex Krizhevsky 的 AlexNet 在 ImageNet 图像识别竞赛中以巨大优势夺冠,将错误率从 26% 降至 15.3%。GPU 加速训练 + 大数据 + 深层卷积神经网络(CNN)的组合证明了深度学习的威力,AI 进入高速发展期。
出处:Krizhevsky, A., Sutskever, I. & Hinton, G. E. (2012). "ImageNet Classification with Deep Convolutional Neural Networks." NeurIPS 2012.Google DeepMind 的 AlphaGo 以 4:1 击败围棋世界冠军李世石,随后 AlphaGo Zero 仅通过自我对弈就达到了更高水平。这标志着强化学习 + 深度学习的巨大潜力。同年,Transformer 架构横空出世。
出处:Silver, D. et al. (2016). "Mastering the Game of Go with Deep Neural Networks and Tree Search." Nature, 529, 484-489.; Vaswani, A. et al. (2017). "Attention Is All You Need." NeurIPS 2017.OpenAI 发布 GPT 系列(2018: GPT-1, 2019: GPT-2, 2020: GPT-3),参数规模从 1.17 亿飙升至 1750 亿。预训练 + 微调范式成为主流。Stable Diffusion(2022)引爆 AI 绘画,DALL·E 2 同年发布。AI 内容生成能力出现质的飞跃。
出处:Radford, A. et al. (2018). "Improving Language Understanding by Generative Pre-Training." OpenAI.; Radford, A. et al. (2019). "Language Models are Unsupervised Multitask Learners." OpenAI.; Brown, T. et al. (2020). "Language Models are Few-Shot Learners." NeurIPS 2020.2022 年 11 月 ChatGPT 发布,两个月用户突破 1 亿,掀起全球 AI 热潮。GPT-4(2023)支持多模态输入,Claude、Gemini、Llama 等模型相继发布。AI Agent、代码生成(Copilot)、RAG(检索增强生成)等技术快速成熟。AI 正从"工具"进化为"协作者"。
出处:OpenAI (2023). "GPT-4 Technical Report." arXiv:2303.08774; Google (2023). "Gemini: A Family of Highly Capable Multimodal Models." arXiv:2312.11805.让计算机从数据中自动学习规律,而非被明确编程。核心思路:给定数据 → 训练模型 → 做出预测或决策。
用"有标签"的数据训练模型。例如:给模型看 10,000 张标注了"猫""狗"的图片,它就能学会区分猫和狗。
从"无标签"数据中发现隐藏结构。例如:对用户行为数据做聚类,自动发现不同的用户群体。
智能体通过与环境交互获得"奖励/惩罚"来学习最优策略。典型代表:AlphaGo、机器人控制。
模拟生物神经元的数学模型。由输入层、隐藏层、输出层组成,通过调节连接权重来学习。
使用多层(深层)神经网络的机器学习方法。层数越多,能提取的特征越抽象,能力越强。
让计算机理解、生成人类语言的技术。应用包括机器翻译、文本摘要、聊天机器人等。
让计算机"看懂"图像和视频。核心任务:图像分类、目标检测、图像分割。
2017 年提出的架构,核心是"自注意力机制"(Self-Attention),能并行处理序列数据,是 GPT、BERT 等大语言模型的基础。
参数量巨大(数十亿到数万亿)、在海量文本上训练的语言模型。具备理解、推理、生成文本等通用能力。
将外部知识库检索与大模型生成结合,让 AI 回答更准确、减少"幻觉"。
能创造全新内容(文本、图像、音频、代码)的 AI。代表产品:ChatGPT、Midjourney、Stable Diffusion。
输入数据 + 人工编写规则 → 输出结果
例:if 温度 > 37.5 then 提示发烧
输入数据 + 已知结果 → AI 自动学出规则
例:给定病历 → AI 学会诊断疾病
理解这三者的关系是掌握现代 AI 应用的关键。简单来说:LLM 是大脑,RAG 是记忆库,Agent 是双手。它们层层递进,共同构成完整的 AI 应用能力。
| 维度 | 🧠 LLM(大语言模型) | 🔗 RAG(检索增强生成) | 🤖 Agent(智能体) |
|---|---|---|---|
| 核心定义 | 在海量文本上训练的超大规模神经网络 | 让 LLM 在回答前先检索外部知识的技术 | 能自主思考、规划、调用工具完成任务的系统 |
| 解决的问题 | 语言理解与文本生成 | 知识过时、幻觉、私有数据缺失 | 单次对话无法完成复杂、多步骤任务 |
| 能力边界 | 只能"说"(生成文本) | 能"说" + "记"(引用外部知识) | 能"说" + "记" + "做"(执行行动) |
| 典型应用 | ChatGPT 对话、文案写作、翻译 | 企业知识库问答、文档检索助手 | 自动化办公、代码开发、数据分析 |
| 关键框架 | OpenAI API、vLLM、Ollama | LangChain、LlamaIndex | LangGraph、CrewAI、AutoGen |
| 类比 | 一个博学但记性不太好的人 | 博学的人 + 一座图书馆 | 博学的人 + 图书馆 + 双手 + 行动力 |
以一个实际场景为例:"帮我分析这份财报,找出利润下降的原因,然后写一封邮件给管理层汇报。"
AI Agent(智能体)是以 LLM 为"大脑",具备自主感知环境、推理规划、使用工具、执行行动并从反馈中学习的能力的系统。它不只是"聊天",而是能真正"干活"。
负责理解、推理、决策
分解任务、制定步骤
搜索、代码执行、API 调用
短期记忆 + 长期记忆
Agent 的核心是一个不断循环的"感知-思考-行动"过程:
Agent 不是一次就给出答案,而是在循环中不断调整策略,直到任务完成或达到终止条件。这与人类解决问题的方式非常相似——先想一步,尝试一下,看看结果,再决定下一步。
Tool 是 Agent 能调用的"外挂能力",让 LLM 从"只会说"进化到"能做事"。
| 类型 | 说明 | 示例 |
|---|---|---|
| 搜索工具 | 获取实时网络信息 | Web Search、Brave Search |
| 代码执行 | 运行代码并返回结果 | Python REPL、Bash |
| 文件操作 | 读写、管理文件 | 文件系统访问、PDF 解析 |
| API 调用 | 连接外部服务 | 邮件发送、数据库查询 |
| 浏览器 | 自动化网页操作 | Playwright、Puppeteer |
Skill 是更高层次的抽象——它是一组 Tools + 领域知识 + 工作流的打包组合。如果说 Tool 是"螺丝刀",那 Skill 就是"维修工具箱"。
MCP 是 Anthropic 于 2024 年 11 月发布的开放协议,被称为 "AI 界的 USB-C"。它标准化了 AI 模型与外部工具/数据源之间的连接方式。
| 能力 | 说明 | 类比 |
|---|---|---|
| Tools | 模型可调用的函数 | 手(能做动作) |
| Resources | 应用可读取的数据源 | 书架(能查资料) |
| Prompts | 预定义的提示模板 | 操作手册(引导使用) |
截至 2026 年 3 月,MCP SDK 月下载量已达 9700 万+次,已有 5800+ 个 MCP Server。2025 年 12 月,Anthropic 将 MCP 协议捐赠给了开放标准组织。
工作流是将多个 Agent 步骤编排成固定或半固定的流程,实现自动化任务执行。
| 框架 | 特点 | 适用场景 |
|---|---|---|
| LangGraph | 基于图结构,支持状态管理和循环 | 复杂多步骤 Agent、Agentic RAG |
| CrewAI | 角色扮演式多 Agent 协作 | 团队协作型任务 |
| AutoGen | Microsoft 出品,多 Agent 对话 | 研究、多 Agent 实验 |
| Dify | 可视化工作流编排 | 低代码/无代码用户 |
from langchain_openai import ChatOpenAI
from langchain.agents import create_react_agent, AgentExecutor
from langchain.tools import tool
# 1. 定义工具
@tool
def search(query: str) -> str:
"""搜索互联网获取信息"""
return f"搜索结果:{query} 的相关信息..."
@tool
def calculator(expression: str) -> str:
"""计算数学表达式"""
return str(eval(expression))
# 2. 创建 Agent
llm = ChatOpenAI(model="gpt-4o")
tools = [search, calculator]
agent = create_react_agent(llm, tools, prompt)
executor = AgentExecutor(agent=agent, tools=tools)
# 3. 运行
result = executor.invoke({
"input": "搜索2025年中国GDP,然后计算同比增长率"
})
print(result["output"])
Google Health 和 DeepMind 开发的 AI 系统,通过分析眼底照片来检测糖尿病视网膜病变(DR),这是导致失明的主要原因之一。
Tesla 的自动驾驶系统利用安装在车辆周围的 8 个摄像头、12 个超声波传感器和 1 个前向雷达,实时感知周围环境并做出驾驶决策。
OpenAI 的 ChatGPT 基于 GPT 系列大语言模型,通过人类反馈强化学习(RLHF)进行对齐,使其回答更加有用、安全、符合人类偏好。
Stable Diffusion 是一种基于扩散模型(Diffusion Model)的图像生成 AI。用户输入文字描述(Prompt),就能生成高质量图像。
DeepMind 的 AlphaFold2 解决了生物学 50 年来的重大挑战——蛋白质三维结构预测。蛋白质的功能由其折叠结构决定,而实验室测定一个结构可能需要数月甚至数年。
从零基础到 AI Agent 开发者的推荐学习顺序,每个阶段标注了难度和预计时间。
💡 学习建议:
• 实战优先:每学一个概念就动手写代码,不要只看理论
• 快速迭代:先用 API 快速验证想法,再深入底层原理
• 关注社区:Hugging Face、GitHub、X (Twitter) 上的 AI 开发者社区
• 总预计时间:约 4-6 个月(全职)/ 6-12 个月(业余)
OpenClaw(昵称"龙虾")是 2026 年 GitHub 上最火的开源 AI Agent 项目,拥有 310K+ Stars。它是一个完全开源、自托管的 AI 私人助理,核心理念是:将 AI 大模型的能力接入你日常使用的每一个消息平台。
CLI(Command Line Interface)是开发者的"超能力",在 AI 开发中尤为重要。以下是常用的 CLI 工具:
| 工具 | 用途 | 说明 |
|---|---|---|
| openclaw | AI Agent 管理 | OpenClaw 的命令行客户端,管理 Agent 配置、技能、守护进程 |
| ollama | 本地模型运行 | 一行命令在本地运行 Llama、Qwen、DeepSeek 等开源模型 |
| uv / pip | Python 包管理 | 安装 AI 相关 Python 库(langchain、transformers 等) |
| npm / pnpm | Node.js 包管理 | 安装 MCP Server、前端 AI 工具等 |
| git | 版本控制 | 管理 AI 项目代码,协作开发 |
| docker | 容器化部署 | 部署向量数据库、MCP Server、AI 服务 |
| claude / aichat | 终端 AI 对话 | 在命令行中直接与 AI 模型对话 |
| lm-eval | 模型评估 | 在本地评测 LLM 的各项能力指标 |
💡 CLI 在 AI 开发中的重要性:AI Agent 的核心能力之一就是"执行命令"——通过 CLI 操作文件系统、运行脚本、管理服务。掌握 CLI 是构建强大 Agent 的基础。
| 层次 | 工具/框架 | 作用 |
|---|---|---|
| 模型层 | GPT-4o / Claude / Qwen / DeepSeek / Llama | 基础 LLM 能力 |
| 推理层 | vLLM / Ollama / llama.cpp / TensorRT-LLM | 高效推理与本地部署 |
| 编排层 | LangChain / LangGraph / LlamaIndex | Agent 编排与 RAG 流程 |
| 工具层 | MCP / Function Calling / OpenClaw Skills | 标准化工具接入 |
| 向量层 | Chroma / FAISS / Pinecone / Milvus | 向量存储与检索 |
| 评估层 | LangSmith / TruLens / RAGAS | Agent 质量评估 |
| 平台层 | Dify / FastGPT / Flowise / Coze | 低代码/无代码搭建 |
| Agent 层 | CrewAI / AutoGen / OpenClaw | 多 Agent 协作与部署 |