多模态 AI — AI 全栈学习指南 PAGE 13

早期

分别处理，再融合

早期的多模态方法是"管道式"的：用独立模型分别处理图像和文本，然后在后期特征拼接。例如 CNN 提取图像特征 + LSTM 处理文本 + 全连接层融合。简单但效率低，模态交互不充分。

2021

CLIP — 文本-图像对比学习

OpenAI 使用 4 亿对图文数据训练 CLIP，通过对比学习让模型学会"图文语义对应"，实现强大的零样本图像分类，成为后续多模态模型的基础组件。

出处：Radford, A. et al. (2021). "Learning Transferable Visual Models From Natural Language Supervision." ICML 2021. arXiv:2103.00020

2022

Flamingo — 视觉-语言模型

DeepMind 发布 Flamingo，将视觉编码器（ViT）与 LLM（Chinchilla）通过门控交叉注意力连接，能处理交替的图像-文本序列，在视觉问答等任务上表现优异。

出处：Alayrac, J.-B. et al. (2022). "Flamingo: a Visual Language Model for Few-Shot Learning." NeurIPS 2022. arXiv:2204.14198

2023

GPT-4V — 多模态大语言模型

OpenAI 在 GPT-4 基础上增加视觉能力，能看图表分析数据、看照片回答问题、理解手写笔记、解读幽默梗图。标志大语言模型正式进入"能看"的时代。

出处：OpenAI (2023). "GPT-4 Technical Report." arXiv:2303.08774

2023

Gemini — 原生多模态

Google DeepMind 发布 Gemini，采用原生多模态训练——训练之初就同时处理文本、图像、音频、视频和代码。Gemini 1.5 Pro 上下文窗口达 1M tokens，能处理 1 小时视频。

出处：Google (2023). "Gemini: A Family of Highly Capable Multimodal Models." arXiv:2312.11805

2024

Sora — 文本生成视频

OpenAI 发布 Sora，能根据文本描述生成最长 60 秒高质量视频。基于 Diffusion Transformer（DiT）架构，将视频转化为"时空 patch"进行处理。

出处：OpenAI (2024). "Sora: Creating Video from Text."; Peebles & Xie (2023). "Scalable Diffusion Models with Transformers." arXiv:2212.09748

2024

GPT-4o — 实时多模态交互

GPT-4o（omni）首次实现真正的实时多模态交互：语音到语音延迟仅约 300ms。原生处理文本、视觉和音频，无需中间文本转换，能感知情绪、语调和背景声音。

出处：OpenAI (2024). "GPT-4o System Card."; OpenAI Blog (2024). "Introducing GPT-4o."

模型	年份	核心能力	范式
CLIP	2021	图文对齐、零样本分类	对比学习
DALL&E 2	2022	文本生成图像	扩散模型
Stable Diffusion	2022	开源图像生成	潜空间扩散
Flamingo	2022	视觉问答、图像描述	VLM
GPT-4V	2023	图像理解	多模态 LLM
Gemini	2023	原生多模态、1M 上下文	原生多模态
Sora	2024	文本生成视频	DiT
GPT-4o	2024	实时语音+视觉+文本	端到端原生

版本	年份	架构	分辨率	核心突破
DALL&E 1	2021	dVAE + Transformer	256x256	首次用 GPT 架构生成图像，验证了文本到图像的可行性
DALL&E 2	2022	GLIDE + CLIP	1024x1024	扩散模型 + CLIP 引导，图像质量和一致性大幅提升
DALL&E 3	2023	扩散 + ChatGPT	1024x1024	与 GPT-4 深度集成，Prompt 理解能力和图像细节最佳

模型	特点	能力
VALL-E	微软, 2023	仅需 3 秒语音样本即可克隆音色
Bark	Suno, 2023	多语言 TTS + 非语音音效（笑声、叹息等）
ElevenLabs	ElevenLabs, 2023	最自然的商业 TTS，实时语音克隆
ChatTTS	开源, 2024	中文高表现力 TTS，支持细粒度韵律控制

能力	说明	工具/产品
视频风格迁移	将视频风格转换为特定艺术风格	Runway Gen-2
智能剪辑	AI 自动选择精彩片段、添加转场	CapCut, Descript
视频修复	去噪、超分辨率、帧率提升	Topaz Video AI
局部编辑	修改视频中特定物体（如换衣服）	Wonder Studio, Gen-2

组件	文本 RAG	多模态 RAG
文档解析	PDF/Word 文本提取	OCR + 版面分析 + 图片提取 + 表格识别
Embedding	文本 Embedding 模型	文本 + 图像（CLIP/ViT）+ 音频 Embedding
向量数据库	单模态向量存储	多列向量 + 元数据过滤（时间戳、模态类型）
检索策略	文本相似度检索	多路召回 + 跨模态重排序
生成模型	LLM（文本）	VLM（GPT-4V / Gemini / Claude Vision）

🎨 多模态 AI

🌎 一、什么是多模态 AI？

📊 常见的模态类型

文本 Text

图像 Image

音频 Audio

视频 Video

3D 三维

结构化数据

🔄 从单模态到多模态的演进

🎯 多模态的终极目标

📅 二、多模态 AI 的发展历程

分别处理，再融合

CLIP — 文本-图像对比学习

Flamingo — 视觉-语言模型

GPT-4V — 多模态大语言模型

Gemini — 原生多模态

Sora — 文本生成视频

GPT-4o — 实时多模态交互

📊 关键里程碑对比

👁️ 三、视觉语言模型（VLM）

🔨 VLM 核心架构：视觉编码器 + LLM

🔬 CLIP 原理详解

1. 核心思想：对比学习

2. 双编码器架构

3. 图像编码器：ViT 流程

4. 案例：CLIP 零样本图像分类

🖼️ 四、图像生成 AI

🎭 GAN（生成对抗网络）

原理：生成器 vs 判别器

案例：StyleGAN 人脸生成

GAN 的局限

🌈 扩散模型（Diffusion Model）

前向过程：逐步加噪声

反向过程：逐步去噪声

Stable Diffusion 架构拆解

🎨 DALL&E 系列

🔊 五、语音 AI

🎤 语音识别（ASR）：Whisper

🎵 语音合成（TTS）

🎥 实时语音交互：GPT-4o 的语音能力

🎬 六、视频 AI

🎬 Sora：文本生成视频

🔍 视频理解：Gemini 1.5 Pro

🎦 视频编辑 AI

🤖 七、多模态 Agent

👁️ 能看图的 Agent

🎥 能听说的 Agent

💻 Computer Use（Anthropic）：Agent 操作电脑界面

🔍 八、多模态 RAG

📊 图文混合检索

🎬 视频 RAG

📊 多模态 RAG 技术栈