决策规则
知识点概述
决策规则是机器学习中最具可解释性的模型之一。它由一个或多个简单的IF-THEN语句组成,每个语句包含一个或多个条件(IF部分)和一个预测(THEN部分)。因为其结构与自然语言和逻辑推理相似,所以非常容易被人类理解。
教材原文
决策规则 (Decision Rules) 是一个简单的 IF-THEN 语句,由条件(也称为先行条件)和预测组成。例如:“IF 今天下雨 AND 现在是四月(条件),THEN 明天下雨(预测)”。可以使用单个决策规则或多个规则的组合进行预测。 … 决策规则可能是最容易解释的预测模型。
详细解释
- 基本结构:
IF <条件> THEN <预测>- 条件 (Antecedent): 由一个或多个
feature=value的逻辑判断组成,通过AND连接。例如size > 100 AND garden = 1。 - 预测 (Consequent): 规则所做的预测结果。例如
value = high。
- 条件 (Antecedent): 由一个或多个
- 评估指标:
- 支持度 (Support / Coverage): 规则的条件所覆盖的数据实例占总实例的百分比。支持度越高,规则的普适性越强。
- 准确性 (Accuracy / Confidence): 在规则所覆盖的实例中,预测正确的实例所占的百分比。
- 组合多个规则: 单个规则通常不足以构建一个完整的模型,组合多个规则主要有两种策略:
- 决策列表 (Decision List):
- 结构: 一个有序的规则集合。
- 执行: 按顺序检查规则,一旦某个规则的条件满足,就立即使用该规则的预测,并停止检查后续规则。
- 优点: 解决了规则重叠的问题,解释路径清晰。
- 决策集 (Decision Set):
- 结构: 一个无序的规则集合。
- 执行: 可能有多条规则同时适用,需要一个冲突解决策略,如“多数投票”(可根据规则的准确性加权)。
- 缺点: 当多条规则适用时,解释会变得复杂。
- 决策列表 (Decision List):
- 默认规则 (Default Rule): 为了确保所有实例都能被覆盖(即模型是详尽的),通常会设置一个默认规则。当没有其他任何规则适用时,就使用默认规则进行预测。默认规则的预测通常是其所覆盖实例中最常见的类别。
学习要点
- 掌握决策规则的IF-THEN结构。
- 理解评估规则好坏的两个核心指标:支持度和准确性,以及它们之间的权衡关系。
- 区分决策列表(有序)和决策集(无序)这两种规则组合策略。
- 知道默认规则的作用是保证模型的完整性。
实践应用
- 医疗诊断: 制定清晰的诊断标准,如“IF 病人发烧 AND 咳嗽 AND X光片显示肺部阴影 THEN 诊断为肺炎”。
- 信用审批: 银行的风控规则引擎就是基于大量的决策规则建立的。
- 市场营销: “IF 用户是新注册的 AND 首次购买金额 > 100元 THEN 发放10元优惠券”。
关联知识点
- 前置知识: 20-理论方法-决策树 (决策树的每一条路径都可以被看作是一条决策规则)
- 后续知识: 23-理论方法-OneR, 24-理论方法-顺序覆盖, 25-理论方法-贝叶斯规则列表, 26-理论方法-RuleFit