可解释性评估
知识点概述
由于可解释性没有统一的数学定义,评估一个解释的好坏也同样具有挑战性。Doshi-Velez 和 Kim (2017) 提出了一个三层次的评估框架,从最实际的应用层面到最抽象的功能层面,为我们提供了评估可解释性的思路。
教材原文
对于机器学习中的可解释性至今没有达成共识,如何衡量也不清楚。但有一些初步的研究,并试图制定一些评估方法。 Doshi Velez 和 Kim (2017) 为评估可解释性提出了三个主要层次: 应用级评估 (实际任务) (Application Level Evaluation): 将解释放入产品中, 由最终用户进行测试。 人员级评估 (简单任务) (Human Level Evaluation): 简化的应用级评估。这些实验不是由领域专家进行的, 而是由非专业人员进行的。 功能级评估 (代理任务) (Function Level Evaluation): 不需要人工。当所使用的模型类已经由其他人在人员级评估中进行了评估时, 这是最有效的。
详细解释
1. 应用级评估 (Application-level Evaluation)
- 核心思想: 在真实的场景中,由领域专家(最终用户)来评估解释的有效性。这是最可靠、最直接的评估方式。
- 评估方法: 将带有解释功能的模型集成到实际产品或工作流中,观察它是否能帮助专家提高决策质量、效率或发现新知识。
- 例子:
- 医疗: 放射科医生使用一个能高亮显示可疑病灶并提供解释的AI系统来诊断X光片。评估指标可以是医生的诊断准确率是否提升,或者诊断时间是否缩短。
- 基准: 一个好的基准是比较AI的解释与人类专家对相同决策给出的解释。
2. 人员级评估 (Human-level Evaluation)
- 核心思想: 这是应用级评估的简化版,使用非专业人员(如众包平台的工人)来完成一些更简单的、与真实任务相关的评估任务。
- 评估方法: 向测试者展示不同的解释,让他们选择哪个解释更好、更容易理解,或者让他们基于解释来预测模型的行为。
- 优点: 比应用级评估成本更低,更容易找到大量的测试人员。
- 缺点: 评估结果的有效性可能不如领域专家评估。
- 例子: 向普通用户展示两种不同的贷款拒绝解释,让他们选择哪一种更清晰、更有帮助。
3. 功能级评估 (Function-level Evaluation)
- 核心思想: 无需人工参与,通过一些代理指标(proxy metrics)来自动评估解释的质量。这种方法通常是定量的。
- 评估方法: 当我们已经通过前两个层面的评估知道某种类型的解释(如决策树)是好的,我们就可以使用一些量化指标来评估它。
- 例子:
- 模型复杂度作为代理: 如果我们认为决策树是好的解释,那么我们可以用“树的深度”或“节点的数量”作为可解释性的代理指标。一棵更浅的树被认为更可- **可解释。
- 保真度作为代理: 衡量一个事后解释(如LIME)在多大程度上忠实地模拟了原始黑盒模型的行为。
学习要点
- 掌握评估可解释性的三个层次:应用级、人员级、功能级。
- 理解每个层次评估的侧重点、优缺点和适用场景。
- 知道应用级评估是最可靠但成本最高的方法,而功能级评估最容易实现自动化但可能与真实效用脱节。
- 在实践中,选择哪种评估方法取决于具体的应用需求、可用资源和评估目标。
关联知识点
- 前置知识: 5-核心概念-可解释性的重要性, 9-核心概念-解释的性质
- 后续知识: 36-理论方法-局部代理(LIME) (LIME的保真度评估属于功能级评估)