对抗样本

知识点概述

对抗样本（Adversarial Examples）是指通过对原始输入样本进行微小的、人眼难以察觉的故意扰动，从而导致机器学习模型做出错误预测的样本。它本质上是一种以欺骗模型为目的的特殊反事实实例，揭示了模型在鲁棒性方面的脆弱性。

对抗样本（Adversarial Examples）是指当对一个样本的某一个特征值作出一个微小的变化而使得整个模型作出一个错误的预测。我建议先阅读有关反事实解释的小节，因为这些概念非常相似。对抗样本是反事实实例，旨在欺骗模型而不是解释模型。

核心思想: 对抗样本利用了模型学习到的决策边界中的“盲点”或“漏洞”。攻击者寻找一个方向，在这个方向上对输入进行微小的修改，就能将该输入“推过”决策边界，使其被错误分类，而这种修改对于人类观察者来说通常是无害或不可见的。
与反事实解释的区别:
- 目的不同: 反事实解释的目的是为了理解和解释模型的行为；对抗样本的目的是为了攻击和欺骗模型。
- 约束不同: 反事实解释追求与原始实例相似且有意义的改变；对抗样本则专注于用最小的、通常是难以察觉的扰动来达到欺骗的目的。

快速梯度符号方法 (Fast Gradient Sign Method, FGSM):
- 一种经典的“白盒”攻击方法，需要知道模型的梯度信息。
- 原理: 计算损失函数相对于输入像素的梯度，然后沿着梯度的符号方向（即让损失增大的最快方向）对原始图像的每个像素增加一个微小的扰动 $ϵ$ 。
- 公式: $x^{'} = x + ϵ \cdot sign (\nabla_{x} J (θ, x, y))$
单像素攻击 (One-pixel Attacks):
- 一种更具挑战性的攻击，旨在只修改一个像素就让模型分类失败。
- 原理: 使用差分进化等优化算法，在巨大的搜索空间中寻找要修改的最佳像素位置及其新的RGB值。
对抗补丁 (Adversarial Patch):
- 不再局限于微小扰动，而是生成一个可以打印出来的、像贴纸一样的“补丁”。当这个补丁被放置在任何物体的旁边时，都能让分类器将其误认为某个特定的目标（如烤面包机）。
黑盒攻击 (Black Box Attacks):
- 在无法访问模型梯度甚至模型结构的情况下进行的攻击。
- 原理: 通常通过训练一个“代理模型”来近似黑盒模型的决策边界，然后为这个代理模型生成对抗样本，并用这些样本去攻击原始的黑盒模型。