让 AI 像人类一样感知世界——同时理解文本、图像、音频、视频,
从 CLIP 到 GPT-4o,探索多模态智能的完整技术图景
多模态 AI(Multimodal AI)是指能够同时处理、理解和生成多种类型数据(模态)的人工智能系统。人类通过视觉、听觉、触觉等多种感官感知世界,多模态 AI 的目标就是让机器也具备这种"全感官"的感知能力。
自然语言、代码、数学公式
照片、插画、图表、医学影像
语音、音乐、环境声
连续帧图像+音频时间序列
点云、网格、体素
表格、数据库记录
早期的多模态方法是"管道式"的:用独立模型分别处理图像和文本,然后在后期特征拼接。例如 CNN 提取图像特征 + LSTM 处理文本 + 全连接层融合。简单但效率低,模态交互不充分。
OpenAI 使用 4 亿对图文数据训练 CLIP,通过对比学习让模型学会"图文语义对应",实现强大的零样本图像分类,成为后续多模态模型的基础组件。
出处:Radford, A. et al. (2021). "Learning Transferable Visual Models From Natural Language Supervision." ICML 2021. arXiv:2103.00020DeepMind 发布 Flamingo,将视觉编码器(ViT)与 LLM(Chinchilla)通过门控交叉注意力连接,能处理交替的图像-文本序列,在视觉问答等任务上表现优异。
出处:Alayrac, J.-B. et al. (2022). "Flamingo: a Visual Language Model for Few-Shot Learning." NeurIPS 2022. arXiv:2204.14198OpenAI 在 GPT-4 基础上增加视觉能力,能看图表分析数据、看照片回答问题、理解手写笔记、解读幽默梗图。标志大语言模型正式进入"能看"的时代。
出处:OpenAI (2023). "GPT-4 Technical Report." arXiv:2303.08774Google DeepMind 发布 Gemini,采用原生多模态训练——训练之初就同时处理文本、图像、音频、视频和代码。Gemini 1.5 Pro 上下文窗口达 1M tokens,能处理 1 小时视频。
出处:Google (2023). "Gemini: A Family of Highly Capable Multimodal Models." arXiv:2312.11805OpenAI 发布 Sora,能根据文本描述生成最长 60 秒高质量视频。基于 Diffusion Transformer(DiT)架构,将视频转化为"时空 patch"进行处理。
出处:OpenAI (2024). "Sora: Creating Video from Text."; Peebles & Xie (2023). "Scalable Diffusion Models with Transformers." arXiv:2212.09748GPT-4o(omni)首次实现真正的实时多模态交互:语音到语音延迟仅约 300ms。原生处理文本、视觉和音频,无需中间文本转换,能感知情绪、语调和背景声音。
出处:OpenAI (2024). "GPT-4o System Card."; OpenAI Blog (2024). "Introducing GPT-4o."| 模型 | 年份 | 核心能力 | 范式 |
|---|---|---|---|
| CLIP | 2021 | 图文对齐、零样本分类 | 对比学习 |
| DALL&E 2 | 2022 | 文本生成图像 | 扩散模型 |
| Stable Diffusion | 2022 | 开源图像生成 | 潜空间扩散 |
| Flamingo | 2022 | 视觉问答、图像描述 | VLM |
| GPT-4V | 2023 | 图像理解 | 多模态 LLM |
| Gemini | 2023 | 原生多模态、1M 上下文 | 原生多模态 |
| Sora | 2024 | 文本生成视频 | DiT |
| GPT-4o | 2024 | 实时语音+视觉+文本 | 端到端原生 |
VLM(Vision-Language Model)是多模态 AI 的核心分支,让大语言模型获得"看"的能力。核心思想:将视觉信息转换为语言模型能理解的形式,复用 LLM 强大的推理和生成能力。
让匹配的图文对在嵌入空间中距离拉近,让不匹配的图文对距离推开。
GAN 由 Ian Goodfellow 于 2014 年提出,核心思想源自博弈论——两个神经网络相互对抗,共同进步。
⚠️ 模式崩塌:生成器只产出少数类型图像,多样性不足。
⚠️ 训练不稳定:平衡极难维持,超参数微小变化可能导致失败。
⚠️ 评估困难:缺乏统一的生成质量评估指标。
扩散模型是当前图像生成的主流范式,Stable Diffusion、DALL&E 2/3、Midjourney 等都基于此。通过"逐步去噪"的方式生成图像,训练更稳定、质量更高。
将一张清晰的图片,逐步添加高斯噪声,经过 T 步后变成纯随机噪声。这个过程是固定的(无需学习)。
训练一个神经网络学习如何从噪声中还原出清晰图片。生成时从纯噪声开始,经过 T 步去噪,最终得到一张全新的清晰图像。这就是扩散模型生成图像的核心。
OpenAI 的 DALL&E 系列是多模态图像生成的标志性产品,三代演进体现了生成式 AI 的飞速发展。
| 版本 | 年份 | 架构 | 分辨率 | 核心突破 |
|---|---|---|---|---|
| DALL&E 1 | 2021 | dVAE + Transformer | 256x256 | 首次用 GPT 架构生成图像,验证了文本到图像的可行性 |
| DALL&E 2 | 2022 | GLIDE + CLIP | 1024x1024 | 扩散模型 + CLIP 引导,图像质量和一致性大幅提升 |
| DALL&E 3 | 2023 | 扩散 + ChatGPT | 1024x1024 | 与 GPT-4 深度集成,Prompt 理解能力和图像细节最佳 |
OpenAI 于 2022 年发布的 Whisper 是一个强大的自动语音识别(Automatic Speech Recognition)系统。
文本转语音(Text-to-Speech)技术让 AI "开口说话"。
| 模型 | 特点 | 能力 |
|---|---|---|
| VALL-E | 微软, 2023 | 仅需 3 秒语音样本即可克隆音色 |
| Bark | Suno, 2023 | 多语言 TTS + 非语音音效(笑声、叹息等) |
| ElevenLabs | ElevenLabs, 2023 | 最自然的商业 TTS,实时语音克隆 |
| ChatTTS | 开源, 2024 | 中文高表现力 TTS,支持细粒度韵律控制 |
GPT-4o 的语音模式与传统的"语音助手"有本质区别:
传统方式(如 Siri):语音 → ASR 转文字 → LLM 处理 → TTS 转语音 → 播放(延迟高、丢失情感信息)
GPT-4o 方式:语音 → 原生语音模型处理 → 直接输出语音(延迟低、保留情绪、语调、背景声)
OpenAI 于 2024 年发布的 Sora,将视频生成推向了新高度。
AI 不仅生成视频,还能编辑视频:
| 能力 | 说明 | 工具/产品 |
|---|---|---|
| 视频风格迁移 | 将视频风格转换为特定艺术风格 | Runway Gen-2 |
| 智能剪辑 | AI 自动选择精彩片段、添加转场 | CapCut, Descript |
| 视频修复 | 去噪、超分辨率、帧率提升 | Topaz Video AI |
| 局部编辑 | 修改视频中特定物体(如换衣服) | Wonder Studio, Gen-2 |
当 Agent 获得多模态感知能力后,它不再只是"文字助手",而是能看图、听音、看视频、操作界面的全能助手。
结合视觉理解 + 工具调用的 Agent,能完成复杂的视觉相关任务:
结合语音识别 + 语音合成 + 任务执行的 Agent,适合语音交互场景:
2024 年,Anthropic 发布了 Computer Use 功能——Claude 能够像人类一样操作电脑界面:看屏幕、移动鼠标、点击按钮、输入文字。
💡 意义:Computer Use 让 Agent 突破了"只能通过 API 调用工具"的限制,可以操作任何有图形界面的软件,无需专门的 API 集成。这是 Agent 从"数字助手"到"通用数字工作者"的关键跨越。
传统 RAG 只处理文本,多模态 RAG 则能同时检索和利用图像、表格、视频等多种模态的信息来增强生成质量。
在产品手册、技术文档、医学报告等场景中,信息往往以"文字+图片+表格"的混合形式存在。多模态 RAG 能同时检索和利用这些信息。
将 RAG 扩展到视频领域,让 AI 能从海量视频中检索特定内容并回答问题。
💡 应用场景:
• 企业培训:从培训视频中快速找到特定操作步骤
• 会议回溯:在 2 小时会议录像中定位讨论某话题的时间点
• 影视分析:分析电影中的镜头语言、角色关系
• 安防监控:从监控视频中检索特定事件
| 组件 | 文本 RAG | 多模态 RAG |
|---|---|---|
| 文档解析 | PDF/Word 文本提取 | OCR + 版面分析 + 图片提取 + 表格识别 |
| Embedding | 文本 Embedding 模型 | 文本 + 图像(CLIP/ViT)+ 音频 Embedding |
| 向量数据库 | 单模态向量存储 | 多列向量 + 元数据过滤(时间戳、模态类型) |
| 检索策略 | 文本相似度检索 | 多路召回 + 跨模态重排序 |
| 生成模型 | LLM(文本) | VLM(GPT-4V / Gemini / Claude Vision) |