决策树的解释
知识点概述
决策树的可解释性源于其直观的、类似流程图的结构。我们可以通过追踪从根节点到叶节点的路径来解释任何一个预测,也可以通过计算特征在所有分割中的贡献来评估其全局重要性。
教材原文
解释很简单:从根节点开始,转到下一个节点,而边表明要查看的子集。一旦到达叶节点,该节点将表明预测的结果。所有边通过“AND”连接。 模板:“如果特征 x 比阈值 c [小/大] AND …, 那么预测结果就是节点 y 中实例的平均值。”
详细解释
1. 局部解释:解释单个预测
对单个实例的预测进行解释,就是追踪该实例从根节点到其最终所属的叶节点的路径。这条路径本身就是一条决策规则。
- 解释模板: “如果 特征A > 阈值1 AND 特征B < 阈值2 AND … , 那么预测结果为Y。”
- 对比性: 决策树的解释是天然具有对比性的。你可以很容易地回答“如果这个特征的值不同,预测会怎样?”这类问题,只需沿着树的另一条分支走下去即可。
- 选择性: 如果决策树很浅(例如深度小于3),那么解释就是选择性的,因为它只涉及少数几个关键特征。
2. 全局解释:理解整个模型
a) 特征重要性 (Feature Importance)
- 计算方法: 一个特征的重要性是通过计算它在树的所有分割点上带来的“不纯度”减少量来衡量的。对于一个特征,它在树中可能被用于多次分割,其总体重要性是所有这些分割带来的不纯度减少量的总和。
- 不纯度减少:
- 回归树: 通常用方差减少量来衡量。
- 分类树: 通常用**基尼指数 (Gini Index)或信息增益 (Information Gain)**来衡量。
- 解释: 特征重要性分数越高,说明该特征对于模型的预测能力贡献越大。通常会将所有特征的重要性进行归一化处理(如总和为100%),以便比较。
b) 树的可视化
- 将整个决策树绘制出来是最直观的全局解释方法。通过可视化,我们可以清楚地看到模型使用了哪些特征、分割点是什么,以及数据是如何被划分到不同的叶节点中去的。
- 缺点: 当决策树很深、很复杂时,完整的可视化会变得非常困难,可解释性会大大降低。
3. 树分解 (Tree Decomposition)
为了量化每个特征对单个预测的具体贡献值,我们可以将预测值分解为每个特征贡献的总和。
- 公式:
- 解释: 最终的预测值等于所有训练样本的目标均值(即根节点的预测值),加上从根节点到该实例所属叶节点的路径上,每个特征(的每次分割)所带来的贡献值。这类似于Shapley值的思想,将预测差异分配给各个特征。
学习要点
- 掌握将决策树的预测路径转化为IF-THEN规则的解释方法。
- 理解决策树特征重要性的计算原理:基于不纯度减少。
- 知道可视化是理解(较浅的)决策树的有效手段。
- 了解树分解可以将单个预测的贡献归因到每个特征上。
实践应用
在11-应用案例-自行车租赁数据集的回归树示例中:
- 我们可以解释为什么某一天的预测租车量是6600辆:“因为这一天在数据集开始后的第430天之后,并且当天的温度高于12摄氏度。”
- 我们可以通过特征重要性图发现,“days_since_2011”(天数趋势)比“temp”(温度)对模型的整体预测更重要。
关联知识点
- 前置知识: 20-理论方法-决策树
- 后续知识: 22-理论方法-决策规则, 34-理论方法-置换特征重要性