知识点概述

二维正态分布(Bivariate Normal Distribution)是一维正态分布向二维平面的推广,是多维正态分布最简单的形式。它用于描述两个服从正态分布的随机变量之间的关系,是统计学和机器学习中应用最广泛的多维连续分布。

教材原文

(教材在3.5节标题“多元正态分布”下隐含了此概念,其定义是标准概率论内容。)

详细解释

  1. 定义与密度函数 (PDF):

    • 一个二维随机向量 服从二维正态分布,如果其联合概率密度函数 (Joint PDF) 为:
    • 这个公式看起来非常复杂,但它完全由五个参数确定。
  2. 五个核心参数:

    • : 变量 的均值。
    • : 变量 的均值。
    • : 变量 的标准差 ( 是方差)。
    • : 变量 的标准差 ( 是方差)。
    • : 相关系数 (Correlation Coefficient),取值范围为 。这个参数描述了两个变量之间的线性关系强度和方向
  3. 图形特征:

    • 其密度函数图形是一个三维空间中的钟形曲面。
    • 曲面的等高线投影到xy平面上是一系列的同心椭圆。
    • 椭圆的中心是
    • 椭圆的形状和方向由 共同决定。
      • 如果 ,椭圆的主轴与坐标轴平行。
      • 如果 ,椭圆的主轴呈正斜率,表示 呈正相关关系( 增大时, 也倾向于增大)。
      • 如果 ,椭圆的主轴呈负斜率,表示 呈负相关关系。
      • 越接近1,椭圆越“扁”,表示线性关系越强。
  4. 重要性质:

    • 边缘分布是正态分布: 如果 服从二维正态分布,那么它的两个边缘分布各自都是一维正态分布。
      • 注意: 反之不成立!即两个变量各自服从正态分布,它们组成的二维向量不一定服从二维正态分布。
    • 条件分布是正态分布: 在给定一个变量的条件下,另一个变量的条件分布也是一维正态分布。
    • 不相关等价于独立: 对于二维正态分布,相关系数 是其两个分量 相互独立充分必要条件。这是正态分布一个极其重要的特性,因为对于一般分布,不相关(协方差为0)通常不能推出独立。

学习要点

  • 不需要死记硬背复杂的联合PDF公式,但必须理解其由五个参数 完全决定的思想。
  • 理解参数 的核心作用:度量线性相关性,并决定了分布椭圆的方向和扁平程度。
  • 掌握二维正态分布最重要的三个性质:
    1. 边缘分布是正态的。
    2. 条件分布是正态的。
    3. 不相关 独立

实践应用

  • 统计学: 在线性回归和许多多元统计分析技术中,二维(或多维)正态分布是核心假设。
  • 金融学: 建模两种或多种资产(如股票、债券)收益率的联合波动情况。相关系数 是投资组合理论中分散风险的关键。
  • 生物统计: 建模人群的身高和体重、血压和年龄等两个生理指标的联合分布。
  • 信号处理: 建模二维信号(如图像)中的噪声。

例题: 假设某地区成年人的身高 和体重 服从二维正态分布,其中 ,且相关系数 。判断以下说法的正误:

  1. 如果一个人的身高为170cm,那么他的体重也最可能是65kg。
  2. 因为 ,所以身高和体重不是相互独立的。
  3. 该地区成年人的身高和体重分布曲线都是钟形的。

解答:

  1. 正确。条件分布 也是一个正态分布,其均值(期望值)就是最可能的值。对于二维正态分布,这个条件期望值位于回归线上,当 取其均值时, 的条件期望也是其均值。
  2. 正确。对于正态分布,不相关是独立的充要条件。因为相关系数不为0,所以它们不独立。
  3. 正确。二维正态分布的边缘分布是正态分布,而正态分布的密度曲线是钟形的。

关联知识点