Interpretable Machine Learning_CN-学习大纲

学习路径规划

本大纲旨在为《可解释的机器学习》提供一个结构化的学习路径。建议遵循从基础到高级的顺序进行学习,首先掌握核心概念和简单的“白盒”模型,然后深入学习用于解释复杂“黑盒”模型的方法,最后探讨高级专题。


第一部分:基础入门 (约 3 小时)

章节概览

  • 第一章:前言
  • 第二章:可解释性
  • 第三章:数据集

本部分将引导你进入可解释机器学习的世界,建立必要的背景知识。你将了解机器学习的基本概念,理解什么是可解释性,为什么它在当今AI时代至关重要,并熟悉本书后续章节将要使用的案例数据集。

知识点层次结构

重点难点

  • 重点: 建立对“可解释性”必要性的深刻认识;掌握区分不同可解释性方法(如模型特定 vs. 模型无关,全局 vs. 局部)的框架。
  • 难点: “解释的性质”和“人性化的解释”部分涉及一些抽象的评估标准和认知科学概念,需要仔细体会。

第二部分:可解释的“白盒”模型 (约 8 小时)

章节概览

  • 第四章:可解释的模型

本部分专注于那些因其自身结构简单而具有内在可解释性的模型,即“白盒”模型。掌握这些模型是理解更复杂解释方法的基础。

知识点层次结构

重点难点

  • 重点: 深入理解线性回归、逻辑回归和决策树的原理及其解释方法(权重解释、几率比解释、规则路径解释)。这是可解释机器学习的基石。
  • 难点: 理解GAM如何通过样条函数捕捉非线性关系;理解RuleFit如何结合决策规则和线性模型;理解贝叶斯规则列表背后的概率和采样思想。

第三部分:模型无关的“黑盒”解释方法 (约 12 小时)

章节概览

  • 第五章:模型无关方法

本部分是全书的核心。当面对一个无法直接理解的复杂“黑盒”模型(如深度神经网络、XGBoost)时,我们将学习如何使用一系列模型无关的工具来“探测”和解释它的行为。

知识点层次结构

重点难点

  • 重点: LIMESHAP 是当前最流行、最重要的局部解释方法,需要重点掌握其思想和应用。置换特征重要性 是最简单实用的全局特征重要性评估方法。
  • 难点: Shapley值的博弈论背景和计算原理较为抽象。ALE图相较于PDP,在处理相关特征时更为精确,但其计算原理也更复杂。H-statistic涉及部分依赖的分解,理解上需要一定数学基础。

第四部分:基于样本的高级解释方法 (约 6 小时)

章节概览

  • 第六章:基于样本的解释

本部分介绍一系列独特的解释方法,它们不生成图表或权重,而是通过寻找或构造具体的数据样本来提供解释,非常直观。

知识点层次结构

重点难点

  • 重点: 理解反事实解释如何回答“如果…会怎样…”的问题,并掌握其作为行动指南的价值。理解有影响力的实例在模型调试和数据清洗中的重要作用。
  • 难点: 对抗样本的生成涉及对模型梯度的攻击,概念较为深入。原型与批评背后的MMD-critic理论数学性较强。影响函数作为快速识别有影响力实例的方法,其推导过程复杂。

第五部分:总结与展望 (约 1 小时)

章节概览

  • 第七章:水晶球

本部分是对全书的总结,并对可解释机器学习的未来发展趋势进行展望。

知识点层次结构

重点难点

  • 重点: 了解模型无关、自动化、从分析数据到分析模型等未来趋势,思考可解释性在未来AI生态中的角色。
  • 难点: 无。

练习题推荐

本书没有提供专门的练习题。最好的练习是亲自动手:

  1. 选择一个你感兴趣的数据集(或使用本书第三章提供的数据集)。
  2. 训练一个你熟悉的机器学习模型(无论是简单的线性模型还是复杂的XGBoost)。
  3. 尝试使用本书介绍的至少一种全局解释方法(如置换特征重要性、PDP/ALE)和一种局部解释方法(如LIME、SHAP)来解释你的模型。
  4. 分析解释结果,看看你是否能从中获得对模型或数据的新洞见。

此文件夹下有47条笔记。