Skip to content

08 - 理论基础

深入理解机器学习的数学基础与理论保证。

模块概览

属性
前置要求线性代数, 微积分, 概率论
学习时长持续学习
Notebooks10+
难度⭐⭐⭐⭐⭐ 理论深度

学习目标

完成本模块后,你将能够:

  • ✅ 掌握线性代数在机器学习中的应用
  • ✅ 理解概率论与统计推断基础
  • ✅ 学习凸优化理论与算法
  • ✅ 理解信息论在深度学习中的作用
  • ✅ 了解统计学习理论与泛化界

子模块详解

01. 线性代数

机器学习的基础语言。

核心概念

概念应用公式/性质
向量空间特征表示线性组合、基
矩阵乘法神经网络前向传播Y=XW
特征值分解PCAA=QΛQT
奇异值分解 (SVD)矩阵分解、推荐系统A=UΣVT
范数正则化|x|1,|x|2
梯度与雅可比反向传播yx

重要定理

SVD 定理:任意 m×n 矩阵 A 可分解为

A=UΣVT

其中 UV 是正交矩阵,Σ 是对角矩阵。

应用示例 - PCA

python
def pca(X, n_components):
    # 中心化
    X_centered = X - X.mean(axis=0)

    # SVD 分解
    U, S, Vt = np.linalg.svd(X_centered, full_matrices=False)

    # 投影到主成分
    X_pca = U[:, :n_components] @ np.diag(S[:n_components])

    return X_pca, Vt[:n_components]

02. 概率论与统计

不确定性建模的基础。

核心概念

概念公式应用
贝叶斯定理P(A|B)=P(B|A)P(A)P(B)贝叶斯推断
期望E[X]=xxp(x)损失函数
方差Var(X)=E[(Xμ)2]不确定性度量
协方差Cov(X,Y)=E[(XμX)(YμY)]特征相关性
大数定律X¯nPμ样本均值收敛
中心极限定理X¯nμσ/ndN(0,1)分布近似

常见分布

分布概率质量/密度函数应用
伯努利P(X=1)=p二分类
高斯12πσ2e(xμ)22σ2VAE, 噪声建模
多项分布n!x1!...xk!p1x1...pkxk多分类
泊松λkeλk!计数数据

最大似然估计 (MLE)

θ^MLE=argmaxθi=1np(xi|θ)=argmaxθi=1nlogp(xi|θ)

最大后验估计 (MAP)

θ^MAP=argmaxθp(θ|X)=argmaxθ[p(X|θ)p(θ)]

03. 优化理论

机器学习训练的核心。

优化问题标准形式

minxRnf(x)s.t.gi(x)0,hj(x)=0

梯度下降

xt+1=xtηf(xt)

凸优化条件

条件数学表述意义
凸函数f(λx+(1λ)y)λf(x)+(1λ)f(y)无局部极小值
强凸f(y)f(x)+f(x)T(yx)+μ2|yx|2唯一最优解
Lipschitz 连续|f(x)f(y)|L|xy|梯度平滑

收敛率对比

方法收敛率条件
梯度下降 (GD)O(1/k)凸 + Lipschitz
GDO(eμk/L)强凸 + 平滑
牛顿法O(e2k)强凸 + 二阶平滑
Adam经验良好实际深度学习

拉格朗日对偶

L(x,λ,ν)=f(x)+iλigi(x)+jνjhj(x)

KKT 条件(最优性必要条件):

  1. 平稳性:f(x)+iλigi(x)+jνjhj(x)=0
  2. 原始可行:gi(x)0,hj(x)=0
  3. 对偶可行:λi0
  4. 互补松弛:λigi(x)=0

04. 信息论

量化信息与不确定性。

核心概念

概念公式解释
熵 (Entropy)H(X)=xp(x)logp(x)不确定性度量
交叉熵H(p,q)=xp(x)logq(x)分类损失
KL 散度DKL(p|q)=xp(x)logp(x)q(x)分布差异
互信息I(X;Y)=H(X)H(X|Y)相关性度量

性质

  • H(X)0,等号成立当且仅当 X 确定
  • DKL(pq)0,等号成立当且仅当 p=q
  • H(p,q)=H(p)+DKL(pq)

应用

python
# 交叉熵损失(分类)
def cross_entropy_loss(y_true, y_pred):
    return -np.sum(y_true * np.log(y_pred + 1e-9))

# KL 散度(VAE 正则化)
def kl_divergence(mu, log_var):
    return -0.5 * torch.sum(1 + log_var - mu.pow(2) - log_var.exp())

05. 统计学习理论

泛化能力的理论保证。

经验风险最小化 (ERM)

f^=argminfF1ni=1nL(f(xi),yi)

泛化误差分解

E[(yf^(x))2]=Bias2+Variance+Noise
含义如何减小
偏差模型拟合能力不足增加模型复杂度
方差对训练数据过拟合正则化、更多数据
噪声数据固有随机性无法消除

VC 维理论

对于 VC 维为 d 的假设空间,泛化误差界为:

R(h)R^(h)O(dlog(n/d)+log(1/δ)n)

Rademacher 复杂度

衡量假设空间对随机噪声的拟合能力。

Rn(F)=Eσ[supfF1ni=1nσif(xi)]

06. 正则化理论

控制模型复杂度的理论基础。

常见正则化方法

方法形式效果
L2 (Ridge)λ|w|22参数平滑
L1 (Lasso)λ|w|1稀疏解
Elastic Netλ1|w|1+λ2|w|22结合两者
Dropout随机失活神经元集成效应
Early Stopping提前停止训练隐式正则化

贝叶斯视角

L2 正则化 = 高斯先验

p(w)=N(0,σ2I)

L1 正则化 = 拉普拉斯先验

p(w)=i12be|wi|/b

实验列表

实验内容文件
线性代数SVD 与 PCA01_linear_algebra.ipynb
概率论分布可视化02_probability.ipynb
优化算法梯度下降变体对比03_optimization.ipynb
凸优化约束优化问题04_convex_optimization.ipynb
信息论熵与互信息05_information_theory.ipynb
泛化理论偏差-方差权衡06_bias_variance.ipynb
正则化L1/L2 效果对比07_regularization.ipynb

参考资源

教材

  • Boyd & Vandenberghe (2004). Convex Optimization - 在线阅读
  • Bishop, C. M. (2006). Pattern Recognition and Machine Learning
  • Murphy, K. P. (2022). Probabilistic Machine Learning: An Introduction
  • Goodfellow et al. (2016). Deep Learning - 在线阅读

论文

  • Vapnik, V. (1998). Statistical Learning Theory
  • Shalev-Shwartz & Ben-David (2014). Understanding Machine Learning: From Theory to Algorithms

课程

在线资源

Released under the MIT License.