知识点概述
二维正态分布(Bivariate Normal Distribution)是一维正态分布向二维平面的推广,是多维正态分布最简单的形式。它用于描述两个服从正态分布的随机变量之间的关系,是统计学和机器学习中应用最广泛的多维连续分布。
教材原文
(教材在3.5节标题“多元正态分布”下隐含了此概念,其定义是标准概率论内容。)
详细解释
-
定义与密度函数 (PDF):
- 一个二维随机向量 服从二维正态分布,如果其联合概率密度函数 (Joint PDF) 为:
- 这个公式看起来非常复杂,但它完全由五个参数确定。
-
五个核心参数:
- : 变量 的均值。
- : 变量 的均值。
- : 变量 的标准差 ( 是方差)。
- : 变量 的标准差 ( 是方差)。
- : 和 的相关系数 (Correlation Coefficient),取值范围为 。这个参数描述了两个变量之间的线性关系强度和方向。
-
图形特征:
- 其密度函数图形是一个三维空间中的钟形曲面。
- 曲面的等高线投影到xy平面上是一系列的同心椭圆。
- 椭圆的中心是 。
- 椭圆的形状和方向由 共同决定。
- 如果 ,椭圆的主轴与坐标轴平行。
- 如果 ,椭圆的主轴呈正斜率,表示 和 呈正相关关系( 增大时, 也倾向于增大)。
- 如果 ,椭圆的主轴呈负斜率,表示 和 呈负相关关系。
- 越接近1,椭圆越“扁”,表示线性关系越强。
-
重要性质:
- 边缘分布是正态分布: 如果 服从二维正态分布,那么它的两个边缘分布各自都是一维正态分布。
- 注意: 反之不成立!即两个变量各自服从正态分布,它们组成的二维向量不一定服从二维正态分布。
- 条件分布是正态分布: 在给定一个变量的条件下,另一个变量的条件分布也是一维正态分布。
- 不相关等价于独立: 对于二维正态分布,相关系数 是其两个分量 和 相互独立的充分必要条件。这是正态分布一个极其重要的特性,因为对于一般分布,不相关(协方差为0)通常不能推出独立。
- 边缘分布是正态分布: 如果 服从二维正态分布,那么它的两个边缘分布各自都是一维正态分布。
学习要点
- 不需要死记硬背复杂的联合PDF公式,但必须理解其由五个参数 完全决定的思想。
- 理解参数 的核心作用:度量线性相关性,并决定了分布椭圆的方向和扁平程度。
- 掌握二维正态分布最重要的三个性质:
- 边缘分布是正态的。
- 条件分布是正态的。
- 不相关 独立。
实践应用
- 统计学: 在线性回归和许多多元统计分析技术中,二维(或多维)正态分布是核心假设。
- 金融学: 建模两种或多种资产(如股票、债券)收益率的联合波动情况。相关系数 是投资组合理论中分散风险的关键。
- 生物统计: 建模人群的身高和体重、血压和年龄等两个生理指标的联合分布。
- 信号处理: 建模二维信号(如图像)中的噪声。
例题: 假设某地区成年人的身高 和体重 服从二维正态分布,其中 ,且相关系数 。判断以下说法的正误:
- 如果一个人的身高为170cm,那么他的体重也最可能是65kg。
- 因为 ,所以身高和体重不是相互独立的。
- 该地区成年人的身高和体重分布曲线都是钟形的。
解答:
- 正确。条件分布 也是一个正态分布,其均值(期望值)就是最可能的值。对于二维正态分布,这个条件期望值位于回归线上,当 取其均值时, 的条件期望也是其均值。
- 正确。对于正态分布,不相关是独立的充要条件。因为相关系数不为0,所以它们不独立。
- 正确。二维正态分布的边缘分布是正态分布,而正态分布的密度曲线是钟形的。