解释的性质

知识点概述

一个“好”的解释应该具备哪些性质?本知识点从解释方法本身和单个解释两个维度,梳理了一系列用于判断解释方法或解释结果优劣的理想性质。这些性质为我们比较和选择不同的解释方法提供了标准。

教材原文

我们仔细研究了解释方法和解释的性质 (Robnik-Sikonja 和 Bohanec, 2018[8]),这些性质可用于判断解释方法或解释的好坏。但针对这些性质,如何正确地衡量它们尚不清楚,因此目前的一个挑战是如何规范地计算它们。

详细解释

解释方法 (Method) 的性质

这些性质描述了解释方法本身的特点:

  • 表达能力 (Expressive Power): 解释的“语言”或结构是什么?例如,解释是IF-THEN规则、决策树、还是特征权重?
  • 半透明度 (Translucency): 解释方法在多大程度上需要访问模型的内部信息(如参数)?依赖模型内部信息的方法(如线性回归系数)半透明度高;只依赖输入输出的黑盒方法(如LIME)半透明度为零。
  • 可移植性 (Portability): 解释方法能适用于多少种不同的机器学习模型?模型无关的方法(如置换重要性)具有高可移植性。
  • 算法复杂度 (Algorithmic Complexity): 生成解释所需的计算成本。

单个解释 (Explanation) 的性质

这些性质描述了生成的具体解释结果的质量:

  • 准确性 (Accuracy): 如果将这个解释本身作为一个预测模型,它的预测准确率如何?
  • 保真度 (Fidelity): 解释在多大程度上忠实地模拟了原始黑盒模型的预测?这是最重要的性质之一,低保真度的解释是无用的。
  • 一致性 (Consistency): 对于两个做出相似预测的相似模型,它们的解释有多相似?
  • 稳定性 (Stability): 对于相似的实例,它们的解释有多相似?一个微小的输入变化不应导致解释发生剧烈改变。
  • 可理解性 (Comprehensibility): 人类在多大程度上能理解这个解释?这取决于解释的简洁性(如特征数量)和呈现方式。
  • 确定性 (Certainty): 解释是否反映了模型自身对其预测的置信度?
  • 重要程度 (Degree of Importance): 解释是否清楚地标明了不同特征或条件的重要性?
  • 新颖性 (Novelty): 解释是否能提示我们,被解释的实例是一个远离训练数据分布的“新”实例?
  • 代表性 (Representativeness): 这个解释能覆盖多少个实例?一个解释可以只针对单个预测,也可以覆盖整个模型。

学习要点

  • 区分“解释方法”的性质和“单个解释”的性质。
  • 理解保真度是衡量一个事后解释(post-hoc explanation)是否可靠的关键。
  • 掌握稳定性的重要性,不稳定的解释是不可信的。
  • 认识到可理解性是一个与受众和场景相关的主观性质。
  • 知道这些性质为我们提供了一个全面的框架来评估和比较不同的可解释性方法。

关联知识点