知识点概述
相关系数(Correlation Coefficient),又称皮尔逊相关系数(Pearson correlation coefficient),是用于度量两个随机变量之间线性关系强度和方向的标准化指标。它解决了协方差受变量尺度影响的问题,是描述变量间关系最常用的数字特征之一。
教材原文
(该知识点是标准概率论内容,在教材中通常紧随协方差之后。)
详细解释
1. 定义
- 设随机变量 和 的方差 和 都存在且不为0。它们的相关系数 (或 ) 定义为它们的协方差除以它们各自标准差的乘积。
- 直观理解: 相关系数本质上是一个标准化(归一化)的协方差。协方差的单位是X的单位乘以Y的单位,其数值会随着X或Y的单位变化而变化,不便于比较。通过除以各自的标准差,相关系数变成了一个无量纲的纯数,其取值范围被固定在 之内。
2. 性质与解释
-
取值范围: 。
-
数值的含义:
- : 表示 和 正线性相关。一个变量增大时,另一个变量也倾向于增大。
- : 表示 和 负线性相关。一个变量增大时,另一个变量倾向于减小。
- : 表示 和 线性不相关。但这不意味着它们一定独立,可能存在非线性关系(如 )。
- : 表示 和 之间存在完全的线性关系,即 几乎必然成立。如果 ,则 ;如果 ,则 。
- 的值越接近1,表示两个变量之间的线性关系越强;越接近0,表示线性关系越弱。
3. 独立性与相关性的关系
- 独立 不相关: 如果 和 相互独立,那么 ,从而 。即独立一定不相关。
- 不相关 独立: 如果 (不相关), 和 不一定相互独立。例如,设 ,。可以算出 ,所以 ,它们不相关。但 完全由 决定,所以它们显然不是独立的。
- 特例: 对于二维正态分布,不相关与独立是等价的。即如果 服从二维正态分布,那么 是 相互独立的充分必要条件。
学习要点
- 理解相关系数是“标准化的协方差”,其优点是无量纲且有确定的范围 。
- 牢记相关系数 的值所对应的物理含义:
- 符号(正/负)代表线性关系的方向。
- 绝对值大小代表线性关系的强度。
- 深刻理解“独立”与“不相关”的区别与联系,这是概率论中一个核心且容易混淆的知识点。
实践应用
- 金融: 计算不同股票收益率之间的相关系数是构建多元化投资组合、管理风险的基础。选择相关系数较低(甚至为负)的资产可以有效分散风险。
- 数据科学与机器学习: 在特征工程中,通过计算特征之间的相关系数矩阵,可以发现高度相关的特征。高度相关的特征可能包含冗余信息,可以考虑移除其中一个以简化模型,避免多重共线性问题。
- 社会科学与医学: 研究不同变量之间的关系,如“收入水平”与“教育程度”的相关性,“吸烟数量”与“患肺癌概率”的相关性等。
例题: 设 。求 和 。
解题思路:
-
求协方差 :
- 根据相关系数的定义 。
- 。
- 。
- 。
-
求方差 :
- 利用方差的性质 。
- 代入数值: 。
关联知识点
- 前置知识:
- 后续知识:
- 线性回归 (Linear Regression)
- 主成分分析 (PCA)