可解释性方法的分类

知识点概述

机器学习的可解释性方法可以根据不同的标准进行分类,理解这些分类有助于我们根据具体需求选择最合适的解释方法。

教材原文

可以根据各种标准对机器学习可解释性的方法进行分类。 本质的 (Intrinsic) 还是事后的 (Post-hoc)? 该标准通过限制机器学习模型的复杂性 (本质的,亦可称内在的) 或在训练后分析模型的方法 (事后的) 来区分是否实现了可解释性。 解释方法的输出——可以根据解释方法的输出大致区分各种解释方法。 特定于模型 (Model-specific) 还是模型无关 (Model-agnostic)? 特定于模型的解释方法仅限于特定的模型类…与模型无关的工具可以用于任何机器学习模型… 局部(Local)还是全局(Global)? 解释方法是否解释单个实例预测或整个模型行为?

详细解释

1. 本质可解释 vs. 事后可解释 (Intrinsic vs. Post-hoc)

  • 本质可解释 (Intrinsic): 指通过使用本身结构就简单透明的机器学习模型来实现可解释性。这类模型因为自身足够简单,所以不需要额外的工具来解释。
    • 例子: 线性回归、逻辑回归、较浅的决策树。
  • 事后可解释 (Post-hoc): 指在模型训练完成之后,应用一些方法来分析和解释模型。这类方法通常用于解释那些本身难以理解的“黑盒”模型。
    • 例子: 置换特征重要性、部分依赖图、LIME。

2. 特定于模型 vs. 模型无关 (Model-specific vs. Model-agnostic)

  • 特定于模型 (Model-specific): 指那些只能用于特定类型模型的解释方法。它们通常利用了模型的内部结构和参数。
    • 例子: 线性回归模型的回归系数、决策树的树状结构。
  • 模型无关 (Model-agnostic): 指那些可以应用于任何类型机器学习模型的方法。它们通常通过分析模型的输入和输出来工作,而无需了解模型的内部机制,将模型视为一个“黑盒”。
    • 例子: LIME, Shapley值, 部分依赖图。

3. 全局解释 vs. 局部解释 (Global vs. Local)

  • 全局解释 (Global): 旨在解释模型在整个数据集上的整体行为和结构。它帮助我们理解模型学到的通用模式。
    • 例子: 特征重要性(衡量一个特征在所有预测中的平均影响)、部分依赖图。
  • 局部解释 (Local): 旨在解释模型对单个实例为什么会做出特定的预测。
    • 例子: LIME(为单个预测构建一个局部的、可解释的代理模型)、Shapley值(计算每个特征对单个预测的贡献)。

4. 解释方法的输出类型

解释方法最终呈现给用户的形式多种多样,包括:

  • 特征概要统计量: 如特征重要性分数。
  • 特征概要可视化: 如部分依赖图。
  • 模型内部参数: 如线性模型的权重。
  • 数据点: 返回一个或多个数据实例作为解释,如反事实解释或原型。

学习要点

  • 掌握区分可解释性方法的四个主要维度:Intrinsic vs. Post-hoc, Model-specific vs. Model-agnostic, Global vs. Local, 以及输出形式。
  • 理解“模型无关”方法的优势在于其灵活性和通用性。
  • 知道全局解释和局部解释分别回答了关于模型的不同问题:“模型是如何工作的?” vs. “为什么模型对这个实例做出了这个预测?”。

关联知识点