可解释性

知识点概述

可解释性(Interpretability)是指人类能够理解决策原因的程度。在机器学习中,它衡量了人类理解一个模型为何做出特定决策或预测的难易程度。一个模型的可解释性越高,其内部逻辑和决策过程对人类来说就越透明。

教材原文

对可解释性是没有数学上定义的。我比较喜欢 Miller (2017)[3] 的 (非数学的) 定义:可解释性是人们能够理解决策原因的程度。另一种定义是 [4]:可解释性是指人们能够一致地预测模型结果的程度。机器学习模型的可解释性越高,人们就越容易理解为什么做出某些决策或预测。如果一个模型的决策比另一个模型的决策能让人更容易理解,那么它就比另一个模型有更高的解释性。我们将使用 Interpretable 和 Explainable 这两个术语来描述可解释性。

详细解释

  • 核心概念: 可解释性不是一个有严格数学定义的概念,而是一个与人类理解和认知相关的概念。它关注的是模型决策过程的透明度和可理解性。
  • Interpretable vs. Explainable:
    • Interpretable (可解释的): 通常指模型本身结构简单,其工作机制和决策过程本身就是透明的,例如线性回归或决策树。
    • Explainable (可解释的): 通常指模型本身可能是一个复杂的“黑盒”,但我们可以使用一些事后(post-hoc)的方法来为它的某个特定决策生成一个解释。
  • 为什么需要可解释性: 仅仅拥有高预测准确率的模型在很多现实场景中是不够的。我们需要理解“为什么”模型会做出某个预测,这有助于:
    • 建立信任: 人们更愿意信任一个能够解释其决策过程的系统。
    • 模型调试: 发现并修正模型中的偏见或错误。
    • 满足法规: 在金融、医疗等领域,法律法规可能要求决策过程是透明和可解释的。
    • 获取洞见: 从模型中学习到关于问题本身的新的知识。

学习要点

  • 理解可解释性的核心定义:人类对模型决策原因的理解程度。
  • 知道可解释性没有统一的数学定义,它是一个与应用场景和解释受众相关的概念。
  • 区分“Interpretable”和“Explainable”两个术语的细微差别。
  • 认识到可解释性对于模型的信任、调试、合规和科学发现至关重要。

实践应用

  • 金融领域: 银行需要向客户解释为什么他们的贷款申请被拒绝,这要求信用评分模型是可解释的。
  • 医疗领域: 医生需要理解为什么一个AI系统诊断某个病人患有癌症,以便做出最终的治疗决策。
  • 自动驾驶: 当自动驾驶汽车做出一个紧急决策时,我们需要能够事后分析它为什么这么做,以确保持续的安全和改进。

关联知识点