决策规则

知识点概述

决策规则是机器学习中最具可解释性的模型之一。它由一个或多个简单的IF-THEN语句组成,每个语句包含一个或多个条件(IF部分)和一个预测(THEN部分)。因为其结构与自然语言和逻辑推理相似,所以非常容易被人类理解。

教材原文

决策规则 (Decision Rules) 是一个简单的 IF-THEN 语句,由条件(也称为先行条件)和预测组成。例如:“IF 今天下雨 AND 现在是四月(条件),THEN 明天下雨(预测)”。可以使用单个决策规则或多个规则的组合进行预测。 … 决策规则可能是最容易解释的预测模型。

详细解释

  • 基本结构: IF <条件> THEN <预测>
    • 条件 (Antecedent): 由一个或多个 feature=value 的逻辑判断组成,通过 AND 连接。例如 size > 100 AND garden = 1
    • 预测 (Consequent): 规则所做的预测结果。例如 value = high
  • 评估指标:
    • 支持度 (Support / Coverage): 规则的条件所覆盖的数据实例占总实例的百分比。支持度越高,规则的普适性越强。
    • 准确性 (Accuracy / Confidence): 在规则所覆盖的实例中,预测正确的实例所占的百分比。
  • 组合多个规则: 单个规则通常不足以构建一个完整的模型,组合多个规则主要有两种策略:
    1. 决策列表 (Decision List):
      • 结构: 一个有序的规则集合。
      • 执行: 按顺序检查规则,一旦某个规则的条件满足,就立即使用该规则的预测,并停止检查后续规则。
      • 优点: 解决了规则重叠的问题,解释路径清晰。
    2. 决策集 (Decision Set):
      • 结构: 一个无序的规则集合。
      • 执行: 可能有多条规则同时适用,需要一个冲突解决策略,如“多数投票”(可根据规则的准确性加权)。
      • 缺点: 当多条规则适用时,解释会变得复杂。
  • 默认规则 (Default Rule): 为了确保所有实例都能被覆盖(即模型是详尽的),通常会设置一个默认规则。当没有其他任何规则适用时,就使用默认规则进行预测。默认规则的预测通常是其所覆盖实例中最常见的类别。

学习要点

  • 掌握决策规则的IF-THEN结构。
  • 理解评估规则好坏的两个核心指标:支持度和准确性,以及它们之间的权衡关系。
  • 区分决策列表(有序)和决策集(无序)这两种规则组合策略。
  • 知道默认规则的作用是保证模型的完整性。

实践应用

  • 医疗诊断: 制定清晰的诊断标准,如“IF 病人发烧 AND 咳嗽 AND X光片显示肺部阴影 THEN 诊断为肺炎”。
  • 信用审批: 银行的风控规则引擎就是基于大量的决策规则建立的。
  • 市场营销: “IF 用户是新注册的 AND 首次购买金额 > 100元 THEN 发放10元优惠券”。

关联知识点