知识点概述

r阶平均收敛（Convergence in r-th Mean），又称 $L^{p}$ 收敛（Convergence in $L^{p}$ -space），是另一种衡量随机变量序列收敛的方式。它关注的是序列中随机变量 $X_{n}$ 与其极限 $X$ 之间偏差的r次方的期望是否趋向于0。这种收敛在衡量预测误差或模型拟合优度时特别有用。

教材原文

(教材在第四章标题“极限定理”及4.1节标题“随机变量列的收敛性”下引入此概念。)

详细解释

1. 定义

设 ${X_{n}}_{n = 1}^{\infty}$ 是一个随机变量序列， $X$ 是另一个随机变量，并设 $r$ 是一个正实数 ( $r > 0$ )。

如果 $X_{n}$ 和 $X$ 的r阶矩都存在，并且： $lim_{n \to \infty} E [∣ X_{n} - X ∣^{r}] = 0$

那么，我们称随机变量序列 ${X_{n}}$ r阶平均收敛于 $X$ ，记为： $X_{n} L^{r} X (as n \to \infty)$

2. 常见特例

均方收敛 (Mean Square Convergence): 当 $r = 2$ 时，称为均方收敛。这是最常用的一种 $L^{p}$ 收敛。 $X_{n} L^{2} X ⟺ lim_{n \to \infty} E [(X_{n} - X)^{2}] = 0$
- 直观理解: 均方收敛意味着 $X_{n}$ 对 $X$ 的“均方误差”（Mean Squared Error, MSE）趋向于0。在统计估计和机器学习中，我们常常通过最小化均方误差来优化模型，其理论基础就是均方收敛。
平均收敛 (Convergence in Mean): 当 $r = 1$ 时，称为平均收敛。 $X_{n} L^{1} X ⟺ lim_{n \to \infty} E [∣ X_{n} - X ∣] = 0$
- 直观理解: 平均收敛意味着 $X_{n}$ 对 $X$ 的“平均绝对误差”（Mean Absolute Error, MAE）趋向于0。

3. 与依概率收敛的关系

r阶平均收敛 $⟹$ 依概率收敛: 如果 $X_{n} L^{r} X$ ，那么 $X_{n} P X$ 。
- 证明思路: 这个结论可以通过马尔可夫不等式（Markov’s Inequality）来证明。马尔可夫不等式指出，对于非负随机变量 $Y$ 和任意 $a > 0$ ，有 $P (Y \geq a) \leq \frac{E ( Y )}{a}$ 。
- 令 $Y = ∣ X_{n} - X ∣^{r}$ 和 $a = ϵ^{r}$ (其中 $ϵ > 0$ ) 。
- $P (∣ X_{n} - X ∣ \geq ϵ) = P (∣ X_{n} - X ∣^{r} \geq ϵ^{r}) \leq \frac{E [ ∣ X _{n} - X ∣ ^{r} ]}{ϵ ^{r}}$ 。
- 由于 $X_{n}$ r阶平均收敛于 $X$ ，所以当 $n \to \infty$ 时，分母 $E [∣ X_{n} - X ∣^{r}] \to 0$ 。
- 因此， $lim_{n \to \infty} P (∣ X_{n} - X ∣ \geq ϵ) = 0$ ，这正是依概率收敛的定义。
反之不成立: 依概率收敛不能推出r阶平均收敛。一个序列可以依概率收敛，但其与极限的偏差的期望（特别是高阶矩）可能不收敛于0，甚至不存在。

学习要点

掌握r阶平均收敛的定义，特别是 $r = 2$ 的均方收敛。
理解r阶平均收敛关注的是偏差的r阶矩的期望，是一种在“平均意义”下的收敛。
知道r阶平均收敛强于依概率收敛，并能理解其基于马尔可夫不等式的证明思路。
通过李雅普诺夫不等式（Lyapunov’s inequality）可以证明，如果一个序列 $L^{r}$ 收敛，那么它也 $L^{s}$ 收敛，其中 $s < r$ 。例如，均方收敛 ( $L^{2}$ ) 强于平均收敛 ( $L^{1}$ )。

实践应用

统计估计: 在参数估计中，均方误差 $MSE (\hat{θ}_{n}) = E [(\hat{θ}_{n} - θ)^{2}]$ 是衡量估计量 $\hat{θ}_{n}$ 好坏的核心标准。如果一个估计量的MSE随着样本量n的增大而趋于0，那么这个估计量就是均方收敛的，这是一个非常理想的性质。
信号处理与控制理论: 在滤波和预测问题中，常常以最小化预测值与真实值之间的均方误差为目标来设计最优滤波器（如卡尔曼滤波器）。
机器学习: 训练神经网络等模型时，损失函数常常选择均方误差（MSE），优化的目标就是让模型的预测值在均方意义下收敛于真实值。

关联知识点

前置知识:
- 080-核心概念-依概率收敛
- 059-核心概念-数学期望的定义
后续知识:
- 084-理论方法-收敛性的关系
- 马尔可夫不等式 (Markov’s Inequality)

SWUFE Book Knowledge Graph

探索

082-核心概念-r阶平均收敛