Skip to content

11 - 多模态学习

本模块涵盖视觉-语言、图像生成、语音识别与合成等多模态技术。

模块结构

11-multimodal-learning/
├── 01-vision-language/         # 视觉-语言模型
├── 02-image-generation/        # 图像生成
└── 03-audio-models/            # 音频模型

核心内容

01 - 视觉-语言模型

模型功能应用
CLIP图文对比学习零样本分类、图文检索
BLIP图文理解与生成图像描述、VQA
LLaVA多模态对话视觉问答、图像理解

CLIP核心思想

  • 对比学习:拉近匹配图文对,推远不匹配对
  • 双塔架构:图像编码器 + 文本编码器
  • 零样本迁移:无需微调即可分类

02 - 图像生成

技术说明
VAE变分自编码器,学习潜在空间
Diffusion扩散模型,逐步去噪生成
Stable Diffusion潜在空间扩散,高效生成
ControlNet条件控制生成

扩散模型原理

  1. 前向过程:逐步添加噪声
  2. 反向过程:学习去噪
  3. 采样:从噪声生成图像

03 - 音频模型

模型功能
Whisper多语言语音识别
Tacotron文本转语音
HiFi-GAN声码器,波形生成

音频特征

  • STFT:短时傅里叶变换
  • Mel频谱:人耳感知频率
  • MFCC:梅尔频率倒谱系数

学习路线

CLIP基础 → BLIP/LLaVA → VAE → Diffusion → Stable Diffusion → Whisper → TTS

依赖库

python
diffusers>=0.20.0
timm>=0.9.0
librosa>=0.10.0
soundfile>=0.12.0

Released under the MIT License.