可解释性
知识点概述
可解释性(Interpretability)是指人类能够理解决策原因的程度。在机器学习中,它衡量了人类理解一个模型为何做出特定决策或预测的难易程度。一个模型的可解释性越高,其内部逻辑和决策过程对人类来说就越透明。
教材原文
对可解释性是没有数学上定义的。我比较喜欢 Miller (2017)[3] 的 (非数学的) 定义:可解释性是人们能够理解决策原因的程度。另一种定义是 [4]:可解释性是指人们能够一致地预测模型结果的程度。机器学习模型的可解释性越高,人们就越容易理解为什么做出某些决策或预测。如果一个模型的决策比另一个模型的决策能让人更容易理解,那么它就比另一个模型有更高的解释性。我们将使用 Interpretable 和 Explainable 这两个术语来描述可解释性。
详细解释
- 核心概念: 可解释性不是一个有严格数学定义的概念,而是一个与人类理解和认知相关的概念。它关注的是模型决策过程的透明度和可理解性。
- Interpretable vs. Explainable:
- Interpretable (可解释的): 通常指模型本身结构简单,其工作机制和决策过程本身就是透明的,例如线性回归或决策树。
- Explainable (可解释的): 通常指模型本身可能是一个复杂的“黑盒”,但我们可以使用一些事后(post-hoc)的方法来为它的某个特定决策生成一个解释。
- 为什么需要可解释性: 仅仅拥有高预测准确率的模型在很多现实场景中是不够的。我们需要理解“为什么”模型会做出某个预测,这有助于:
- 建立信任: 人们更愿意信任一个能够解释其决策过程的系统。
- 模型调试: 发现并修正模型中的偏见或错误。
- 满足法规: 在金融、医疗等领域,法律法规可能要求决策过程是透明和可解释的。
- 获取洞见: 从模型中学习到关于问题本身的新的知识。
学习要点
- 理解可解释性的核心定义:人类对模型决策原因的理解程度。
- 知道可解释性没有统一的数学定义,它是一个与应用场景和解释受众相关的概念。
- 区分“Interpretable”和“Explainable”两个术语的细微差别。
- 认识到可解释性对于模型的信任、调试、合规和科学发现至关重要。
实践应用
- 金融领域: 银行需要向客户解释为什么他们的贷款申请被拒绝,这要求信用评分模型是可解释的。
- 医疗领域: 医生需要理解为什么一个AI系统诊断某个病人患有癌症,以便做出最终的治疗决策。
- 自动驾驶: 当自动驾驶汽车做出一个紧急决策时,我们需要能够事后分析它为什么这么做,以确保持续的安全和改进。
关联知识点
- 前置知识: 1-核心概念-机器学习, 3-核心概念-术语
- 后续知识: 5-核心概念-可解释性的重要性, 6-理论方法-可解释性方法的分类, 14-理论方法-线性回归