Skip to content

12 - 部署优化

本模块涵盖模型压缩、推理加速、服务部署和MLOps全流程。

模块结构

12-deployment-optimization/
├── 01-model-optimization/      # 模型优化
├── 02-inference-engines/       # 推理引擎
├── 03-serving-systems/         # 服务系统
└── 04-mlops/                   # MLOps

核心内容

01 - 模型优化

技术说明压缩比
量化FP32→INT8/INT42-4x
剪枝移除冗余参数2-10x
蒸馏大模型→小模型可变
ONNX导出跨平台部署-

量化类型

  • 动态量化:推理时量化
  • 静态量化:校准后量化
  • 量化感知训练:训练时模拟量化

02 - 推理引擎

引擎特点适用场景
TensorRTNVIDIA GPU优化高性能推理
ONNX Runtime跨平台通用部署
vLLMLLM专用大模型服务
Triton多模型服务生产环境

03 - 服务系统

技术功能
FastAPIREST API服务
gRPC高性能RPC
负载均衡流量分发
批处理提高吞吐量

04 - MLOps

组件工具
实验追踪MLflow、W&B
模型注册MLflow Registry
监控告警Prometheus、Grafana
CI/CDGitHub Actions

学习路线

量化剪枝 → ONNX导出 → TensorRT → FastAPI → MLOps

依赖库

python
onnx>=1.14.0
onnxruntime>=1.15.0
tensorrt>=8.6.0  # NVIDIA GPU
fastapi>=0.100.0
uvicorn>=0.23.0
mlflow>=2.5.0

Released under the MIT License.