部分依赖图 (PDP)
知识点概述
部分依赖图(Partial Dependence Plot, PDP)是一种全局的模型无关解释方法,它通过可视化一个或两个特征对机器学习模型预测结果的平均影响来展示特征与预测之间的关系。PDP可以揭示这种关系是线性的、单调的还是更复杂的。
教材原文
部分依赖图 (Partial Dependence Plot, 简称 PDP 或 PD 图) 显示了一个或两个特征对机器学习模型的预测结果的边际效应 (JH Friedman, 2001[1])。部分依赖图可以显示目标和特征之间的关系是线性的、单调的或更复杂的。 … 部分依赖性通过在集合 C 中的特征分布上边缘化机器学习模型输出而起作用,因此该函数显示了我们感兴趣的集合 S 中的特征与预测结果之间的关系。
详细解释
- 核心思想: PDP的核心思想是孤立地考察一个(或两个)特征对模型预测的平均影响。为了做到这一点,它需要消除所有其他特征的影响。
- 计算过程 (以单个特征 为例):
- 定义网格: 在你感兴趣的特征 的值范围内,定义一个网格点(例如,对于温度,可以是5°, 10°, 15°, …)。
- 对每个网格点进行计算: a. 强制赋值: 取出整个数据集,将所有实例的特征 的值强制修改为当前的网格点值。 b. 模型预测: 让模型对这个被修改过的数据集进行预测。 c. 计算平均: 计算所有预测值的平均值。这个平均值就是PDP在该网格点上的值。
- 绘制曲线: 将所有网格点及其对应的平均预测值连接起来,形成一条曲线(或曲面,对于两个特征)。
- 数学公式:
- 这个公式的本质是,固定我们感兴趣的特征 的值,然后对所有其他特征 的边际分布进行积分(求期望),在实践中就是通过上述的“平均”来近似。
- 解释: PDP上的一个点 表示,当特征 的值为特定值时,模型的平均预测结果是 。通过观察整条曲线的形状,我们可以了解特征与预测之间的关系。
学习要点
- 理解PDP是一种全局解释方法,它展示的是特征对平均预测的影响。
- 掌握PDP的计算步骤:强制赋值 → 预测 → 求平均。
- 认识到PDP的一个核心且有问题的假设:特征独立性假设。它假设我们正在分析的特征与其他所有特征是相互独立的。
优点
- 计算直观: 过程很容易理解和向非专业人士解释。
- 解释清晰: 如果特征独立性假设成立,PDP能清晰地展示特征如何平均地影响预测。
- 因果解释: PDP的计算过程是一种干预(intervention),因此它揭示的是模型内部的因果关系(注意:这不等于现实世界的因果关系)。
缺点
- 特征独立性假设: 这是PDP最大的问题。当特征相关时(例如,身高和体重),PDP会通过强制赋值创造出在现实中极不可能存在的数据点(如身高2米,体重50公斤),并将其纳入平均计算,导致结果产生偏差,甚至完全错误。
- 隐藏异质效应: PDP只显示平均效应,可能会掩盖数据子集中的异质性。例如,一个特征对一半人有正向影响,对另一半人有负向影响,PDP上可能显示为一条平线,得出“该特征无影响”的错误结论。
- 可视化限制: 实际上只能有效展示一个或两个特征的效应。
关联知识点
- 前置知识: 29-理论方法-模型无关方法
- 后续知识: 31-理论方法-个体条件期望(ICE) (ICE是PDP的“分解”版,用于揭示异质效应), 32-理论方法-累积局部效应(ALE) (ALE是PDP的改进版,解决了特征相关性问题)