原型与批评
知识点概述
“原型与批评”(Prototypes and Criticisms)是一种基于样本的解释方法,旨在通过一小组精心挑选的实例来总结整个数据集的分布。其中,“原型”是数据集中最具代表性的典型实例,而“批评”则是那些无法被原型很好地代表的非典型实例或异常点。两者结合,可以提供对数据分布的深刻洞见。
教材原文
一个原型是一个数据实例,它是所有数据的代表。一个批评是不能由一组原型很好地代表的一个数据实例。批评的目的是与原型一起提供见解,尤其是对于原型不能很好代表的数据点。 … MMD-critic 比较数据的分布和所选原型的分布。这是理解 MMD-critic 方法的中心概念。MMD-critic 选择的原型可以最大程度地减少两个分布之间的差异。
详细解释
1. 核心思想
- 用样本总结样本: 与传统的聚类方法(如k-means)只寻找聚类中心(原型)不同,MMD-critic框架不仅寻找代表性的原型,还明确地找出了那些“不合群”的批评。
- 分布匹配: 该方法的核心是衡量“所选原型的分布”与“原始数据的分布”之间的差异。一个好的原型集应该能使其自身的分布尽可能地接近原始数据的分布。
2. MMD-critic 理论
MMD-critic方法通过以下几个关键组件实现原型和批评的选择:
- 最大平均差异 (Maximum Mean Discrepancy, MMD):
- 这是一个用于衡量两个分布之间差异的统计量。MMD²的值越小,说明两个分布越相似。
- 目标: MMD-critic选择原型的过程,就是贪心地寻找一个实例子集,使得这个子集(原型集)的分布与原始数据分布的MMD²最小。
- 核函数 (Kernel Function):
- MMD的计算依赖于核函数(如径向基函数核),它用于衡量数据点之间的相似性,并据此估计数据密度。
- Witness 函数:
- 该函数用于衡量在某个特定点上,原型分布与数据分布的差异程度。
- 批评的定义: 批评就是那些使得Witness函数绝对值最大的点。
- Witness值为大的正数,意味着该点所在区域数据很密集,但附近却没有原型来代表它(原型欠拟合)。
- Witness值为大的负数,意味着该点附近几乎没有数据,但我们却错误地在那放了一个原型(原型过拟合)。
3. 应用
- 理解数据分布: 通过查看原型和批评,可以快速地了解数据集的典型模式和异常情况,尤其适用于复杂的、非高斯分布的数据。
- 构建可解释模型: 可以构建一个“最近原型模型”。对于一个新的实例,找到离它最近的原型,并将该原型的类别作为预测结果。这个原型本身就是对预测的解释。
- 解释黑盒模型:
- 先在数据集上找到原型和批评。
- 然后用训练好的黑盒模型对这些原型和批评进行预测。
- 通过分析模型在这些关键实例上的表现(例如,模型是否在所有原型上都表现良好?它是否在批评上频繁出错?),可以深入了解模型的强项和弱点,发现潜在的数据问题或模型偏见。
学习要点
- 理解原型(典型样本)和批评(非典型样本)的定义和作用。
- 掌握MMD-critic方法的核心思想:通过最小化MMD²来选择原型,通过最大化Witness函数来选择批评。
- 知道原型和批评方法可以用于数据探索、构建可解释模型和解释黑盒模型等多种场景。
优点
- 提供洞见: 相比于随机抽样,原型和批评能更有效地帮助我们理解复杂的数据分布。
- 模型无关: 该方法直接在数据上操作,可以与任何机器学习模型结合使用。
- 灵活性: 用户可以自由选择原型和批评的数量。
缺点
- 参数选择: 需要用户手动选择原型/批评的数量、核函数类型及核参数,缺乏自动化的最优选择方法。
- 计算成本: 贪心搜索过程计算量较大。
- 仅基于特征: 该方法在选择原型和批评时只考虑了输入特征的分布,而没有考虑目标变量。
关联知识点
- 前置知识: 39-理论方法-基于样本的解释, 28-理论方法-k-最近邻
- 相关知识: 核密度估计, 聚类 (k-medoids)