QUICK REVIEW

[论文解读] The Intriguing Relation Between Counterfactual Explanations and Adversarial Examples

Timo Freiesleben|arXiv (Cornell University)|Sep 11, 2020

Adversarial Robustness in Machine Learning参考文献 138被引用 46

一句话总结

本文形式化了反事实解释（CEs）与对抗性样本（AEs）之间的数学关系，表明二者源于相同的优化问题，但在关键属性上存在差异：CEs 要求与原始输入保持接近，并使预测标签翻转为期望的正确标签；而 AEs 要求与原始输入保持接近，但目标是导致误分类。本研究澄清了概念上的区别，统一了术语，并揭示了可解释人工智能（XAI）与对抗性鲁棒性研究之间的方法论协同效应。

ABSTRACT

The same method that creates adversarial examples (AEs) to fool image-classifiers can be used to generate counterfactual explanations (CEs) that explain algorithmic decisions. This observation has led researchers to consider CEs as AEs by another name. We argue that the relationship to the true label and the tolerance with respect to proximity are two properties that formally distinguish CEs and AEs. Based on these arguments, we introduce CEs, AEs, and related concepts mathematically in a common framework. Furthermore, we show connections between current methods for generating CEs and AEs, and estimate that the fields will merge more and more as the number of common use-cases grows.

研究动机与目标

本文旨在解决反事实解释（CEs）与对抗性样本（AEs）之间的概念混淆问题，尽管二者在核心属性上存在差异，但常被混为一谈。
旨在通过统一的数学框架，将 CEs 与 AEs 的术语和形式化表达整合，以提升文献中的清晰度并减少歧义。
本研究探讨了生成 CEs 的方法如何可为 AEs 的生成提供启示，反之亦然，尤其在信贷审批与图像分类等共享应用领域。
强调了在生成 CEs 时，若缺乏对原始输入的接近性保证，使用替代模型或敏感性分析等技术可能带来误用风险。
本文倡导在形式化区分的基础上，进一步整合可解释人工智能与对抗性机器学习研究，以指导未来研究。

提出的方法

本文提出了一种基于优化问题的统一数学框架：argmin_x′∈X d(x, x′) + λ d′(f(x′), y_des)，该框架同时支撑 CEs 与 AEs 的生成。
本文形式化定义 CEs 为满足以下条件的输入 x′：与原始输入 x 尽可能接近（即最小化 d(x, x′)），且使模型输出为期望的正确标签 y_des（即最小化 d′(f(x′), y_des)）。
AEs 被定义为与原始输入 x 接近但导致误分类的输入 x′，即 f(x′) ≠ y_true，其中 y_true 为真实标签。
本文基于两个关键标准区分 CEs 与 AEs：(1) 目标标签（期望标签 vs. 错误标签）；(2) 对接近性的容忍度（CEs 必须实现最大接近性，而 AEs 无此要求）。
本文评估了现有 CEs 与 AEs 生成方法，识别出哪些在概念上可相互迁移（如基于梯度的优化），哪些则不可（如在表格数据中使用替代模型生成 CEs）。
本研究提出因果建模是形式化误分类的一种有前景路径，其不依赖真实标签，建议 AEs 可能利用非因果、无关的特征扰动。

实验结果

研究问题

RQ1反事实解释与对抗性样本在数学上如何关联？二者在形式上存在哪些根本区别？
RQ2CEs 与 AEs 的核心概念差异是什么，尤其体现在接近性要求与目标标签语义上？
RQ3在不引入概念或方法论缺陷的前提下，生成 CEs 的方法在多大程度上可被适配用于生成 AEs，反之亦然？
RQ4为何当前生成 CEs 的方法通常无法保证与原始输入的最大接近性？这对解释力有何后果？
RQ5因果建模能否为区分合理与不合理的误分类提供形式化基础，从而增强 AEs 生成的理论基础？

主要发现

相同的优化问题可生成反事实解释与对抗性样本，但二者在形式上存在本质区别，源于目标不同：CEs 追求正确且期望的标签，而 AEs 追求误分类。
与原始输入的最大接近性是反事实解释的定义性特征，但许多现有生成方法（如敏感性分析或替代模型）无法保证这一点。
来自 AEs 领域的基于梯度的优化技术可概念性地迁移至 CEs 生成中，因其天然具备接近性约束。
在表格数据设置中，使用替代模型生成 CEs 的方法可能因替代模型与原始模型不一致而产生误导性解释。
本文指出，当前 AEs 生成常依赖于缺乏充分依据的距离度量，且模型行为——尤其是未能学习人类鲁棒概念——可能是 AEs 脆弱性的更深层原因，而不仅仅是距离度量本身。
因果建模为将误分类定义为对因果结构的违背提供了有前景且形式化的路径，或可为更鲁棒的 AEs 检测与 CEs 验证提供基础。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。