知识点概述

相关系数(Correlation Coefficient),又称皮尔逊相关系数(Pearson correlation coefficient),是用于度量两个随机变量之间线性关系强度和方向的标准化指标。它解决了协方差受变量尺度影响的问题,是描述变量间关系最常用的数字特征之一。

教材原文

(该知识点是标准概率论内容,在教材中通常紧随协方差之后。)

详细解释

1. 定义

  • 设随机变量 的方差 都存在且不为0。它们的相关系数 (或 ) 定义为它们的协方差除以它们各自标准差的乘积。
  • 直观理解: 相关系数本质上是一个标准化(归一化)的协方差。协方差的单位是X的单位乘以Y的单位,其数值会随着X或Y的单位变化而变化,不便于比较。通过除以各自的标准差,相关系数变成了一个无量纲的纯数,其取值范围被固定在 之内。

2. 性质与解释

  • 取值范围:

  • 数值的含义:

    • : 表示 正线性相关。一个变量增大时,另一个变量也倾向于增大。
    • : 表示 负线性相关。一个变量增大时,另一个变量倾向于减小。
    • : 表示 线性不相关。但这不意味着它们一定独立,可能存在非线性关系(如 )。
    • : 表示 之间存在完全的线性关系,即 几乎必然成立。如果 ,则 ;如果 ,则
    • 的值越接近1,表示两个变量之间的线性关系越强;越接近0,表示线性关系越弱。

3. 独立性与相关性的关系

  • 独立 不相关: 如果 相互独立,那么 ,从而 。即独立一定不相关。
  • 不相关 独立: 如果 (不相关), 不一定相互独立。例如,设 。可以算出 ,所以 ,它们不相关。但 完全由 决定,所以它们显然不是独立的。
  • 特例: 对于二维正态分布,不相关与独立是等价的。即如果 服从二维正态分布,那么 相互独立的充分必要条件。

学习要点

  • 理解相关系数是“标准化的协方差”,其优点是无量纲且有确定的范围
  • 牢记相关系数 的值所对应的物理含义:
    • 符号(正/负)代表线性关系的方向。
    • 绝对值大小代表线性关系的强度。
  • 深刻理解“独立”与“不相关”的区别与联系,这是概率论中一个核心且容易混淆的知识点。

实践应用

  • 金融: 计算不同股票收益率之间的相关系数是构建多元化投资组合、管理风险的基础。选择相关系数较低(甚至为负)的资产可以有效分散风险。
  • 数据科学与机器学习: 在特征工程中,通过计算特征之间的相关系数矩阵,可以发现高度相关的特征。高度相关的特征可能包含冗余信息,可以考虑移除其中一个以简化模型,避免多重共线性问题。
  • 社会科学与医学: 研究不同变量之间的关系,如“收入水平”与“教育程度”的相关性,“吸烟数量”与“患肺癌概率”的相关性等。

例题: 设 。求

解题思路:

  1. 求协方差 :

    • 根据相关系数的定义
  2. 求方差 :

    • 利用方差的性质
    • 代入数值:

关联知识点