知识点概述
多元正态分布(Multivariate Normal Distribution),或称多元高斯分布,是将一维和二维正态分布推广到任意维度的形式。它描述了一组随机变量,其中每个变量本身都服从正态分布,并且它们任意的线性组合也服从正态分布。它是多元统计分析的基石。
教材原文
(教材在3.5节标题“多元正态分布”下引入此概念。)
详细解释
1. 定义
一个n维随机向量 服从多元正态分布,如果其联合概率密度函数 (Joint PDF) 由以下形式给出:
其中:
- 是n维实数向量。
- 是n维均值向量。
- 是 的协方差矩阵,其中元素 。该矩阵必须是对称且正定的。
- 是协方差矩阵的行列式, 是其逆矩阵。
我们记为 。
2. 核心参数
与一维和二维情况类似,一个多元正态分布完全由其均值向量 和协方差矩阵 这两个参数确定。
- 均值向量 : 决定了分布的中心位置。
- 协方差矩阵 : 决定了分布的形状、离散程度以及各个分量之间的相关性结构。
- 对角线元素是各个分量的方差,决定了在各个坐标轴方向上的“胖瘦”。
- 非对角线元素是不同分量间的协方差,决定了分布的“朝向”。
3. 等价定义(更本质的定义)
联合PDF的公式非常复杂,在实际应用和理论推导中,一个更本质且更方便的定义是:
一个随机向量 服从多元正态分布,当且仅当它的任意线性组合 都服从一个一维正态分布(或者是一个常数)。
这个定义揭示了正态分布的核心特性——在线性变换下的封闭性。
学习要点
- 从向量视角理解: 不要试图去记忆复杂的PDF公式,而是要理解多元正态分布是由一个均值向量和一个协方差矩阵完全定义的。
- 掌握核心性质: 多元正态分布最重要的性质是其任意线性组合仍然是正态分布。这个性质是其所有其他优良性质的来源。
- 与二维正态分布的关系: 二维正态分布是n=2时的特例,其所有性质都可以推广到n维情况。
- 参数的意义: 均值向量 描述中心,协方差矩阵 描述形状和相关性结构。
实践应用
- 金融: 资产组合的收益率通常被建模为多元正态分布,协方差矩阵描述了不同资产之间的风险联动关系。
- 机器学习: 高斯混合模型(GMM)使用多个多元高斯分布来对复杂的数据分布进行建模。线性判别分析(LDA)等分类算法也基于多元正态的假设。
- 计量经济学: 在多元回归分析中,误差项常被假设为服从多元正态分布。
- 信号处理: 卡尔曼滤波器(Kalman Filter)等状态估计算法通常假设系统状态和噪声服从多元正态分布。
关联知识点
- 前置知识:
- 后续知识:
- 077-理论方法-多元正态分布的性质
- 078-理论方法-正态随机向量的线性变换
- 主成分分析 (PCA)