个体条件期望 (ICE)
知识点概述
个体条件期望(Individual Conditional Expectation, ICE)图是部分依赖图(PDP)的一种分解和扩展。PDP展示的是特征对所有实例平均预测的影响,而ICE图则为每一个实例单独绘制一条线,显示当特征变化时该实例的预测会如何变化。这使得ICE能够揭示PDP可能掩盖的异质性效应(Heterogeneous Effects)。
教材原文
等价于单个数据实例的 PDP 称为个体条件期望 (ICE) 图 (Goldstein 等人, 2017[25])。ICE 图将实例对每个特征的预测依赖关系可视化,每个实例分别产生一条线,而部分依赖图中整体则只有一条线。PDP 是 ICE 图的线的平均值。 … 与部分依赖图不同,ICE曲线可以揭示异质关系。
详细解释
- 核心思想: 不要取平均,而是为每个实例单独画线。
- 计算过程:
- 选择一个你感兴趣的实例。
- 选择一个你感兴趣的特征。
- 保持该实例的其他所有特征值不变。
- 在一个网格上,依次改变你感兴趣的特征的值,并记录下模型对这些“变体”实例的预测结果。
- 将这些预测点连接起来,就形成了该实例的ICE曲线。
- 对数据集中的所有(或部分抽样的)实例重复此过程,将所有曲线绘制在同一张图上。
- 与PDP的关系: 部分依赖图(PDP)的曲线,在数值上精确地等于所有ICE曲线的平均值。因此,ICE图可以看作是PDP的“分解图”。
- 中心化ICE图 (c-ICE): 由于每个实例的预测起点不同,直接绘制的ICE图可能会因为曲线重叠而难以观察。一个常见的改进是中心化ICE图:将所有曲线的起点都固定在y轴的零点上,这样可以更容易地比较曲线的形状和变化趋势,从而发现异质性。
学习要点
- 理解ICE与PDP的根本区别:ICE为每个实例画线,PDP只画一条平均线。
- 掌握ICE的核心价值:能够揭示被PDP平均效应所掩盖的异质性。如果所有ICE曲线的形状都大致相同,说明不存在明显的交互作用;如果曲线形状各异,则说明该特征与其他特征存在交互作用。
- 了解中心化ICE图(c-ICE)是为了解决可视化混乱问题,使比较不同曲线的形状变得更容易。
优点
- 揭示异质性: 这是ICE相对于PDP最大的优点。我们可以清楚地看到一个特征对不同子群体的实例是否有不同的影响。
- 解释更直观: “这条线代表这个实例的预测变化”比“这条线代表所有实例的平均预测变化”更容易理解。
缺点
- 可视化限制: ICE图只能有效显示一个特征。当有多个特征时,绘制多条重叠的曲线会使图像变得非常混乱,难以解读。
- 特征相关性问题: 与PDP一样,ICE也存在特征独立性假设的问题。当特征相关时,它同样会创造出不切实际的数据点。
- 过分拥挤: 当实例数量很多时,绘制所有ICE曲线会使图表变得一团糟。通常的解决方案是只绘制部分抽样实例的曲线,或者增加线条的透明度。