QUICK REVIEW

[论文解读] On Quantitative Evaluations of Counterfactuals

Frederik Hvilshøj, Alexandros Iosifidis|arXiv (Cornell University)|Oct 30, 2021

Adversarial Robustness in Machine Learning被引用 5

一句话总结

本文揭示了现有用于评估视觉反事实解释的定量指标中的关键缺陷，表明这些指标往往偏好微小的对抗性变化而非现实的改变。为解决此问题，作者提出了两种新指标——标签变化度（Label Variation Score）和最优参考分数（oracle score），以更好地捕捉真实性和有效性，并倡导结合使用这些指标，以确保对反事实质量的稳健评估。

ABSTRACT

As counterfactual examples become increasingly popular for explaining decisions of deep learning models, it is essential to understand what properties quantitative evaluation metrics do capture and equally important what they do not capture. Currently, such understanding is lacking, potentially slowing down scientific progress. In this paper, we consolidate the work on evaluating visual counterfactual examples through an analysis and experiments. We find that while most metrics behave as intended for sufficiently simple datasets, some fail to tell the difference between good and bad counterfactuals when the complexity increases. We observe experimentally that metrics give good scores to tiny adversarial-like changes, wrongly identifying such changes as superior counterfactual examples. To mitigate this issue, we propose two new metrics, the Label Variation Score and the Oracle score, which are both less vulnerable to such tiny changes. We conclude that a proper quantitative evaluation of visual counterfactual examples should combine metrics to ensure that all aspects of good counterfactuals are quantified.

研究动机与目标

分析和评估现有视觉反事实的定量指标，以理解其实际捕捉的属性。
识别当前指标的不足，特别是其倾向于偏好微小但不现实的对抗性变化，而非有意义且现实的反事实。
提出对微小对抗性变化不敏感、更能反映人类直觉的反事实质量的新指标。
倡导采用结合真实性和有效性的多指标评估框架，以确保对反事实生成方法的全面且可信的评估。

提出的方法

提出标签变化度（LVS），通过使用代理预测模型衡量反事实在多个标签上对模型预测的影响，以评估泛化能力并避免对特定输入的过拟合。
引入最优参考分数，通过比较反事实与真实参考结果来评估其有效性，降低对微小扰动的敏感性。
使用弗雷歇 inception 距离（FID）量化生成反事实的真实感，将其与真实数据分布进行比较。
将 FID、LVS 和最优参考分数与现有指标（如欧氏距离 EN 和 Inception 指标 IM1、IM2）结合，构建多指标评估框架。
在三个复杂度递增的数据集上进行评估：FakeMNIST、MNIST 和 CelebA-HQ，使用三种代表性反事实生成方法（GB、GL、GEN）。
通过消融研究和置信区间分析，验证不同反事实类型下指标的鲁棒性和可靠性。

实验结果

研究问题

RQ1现有定量指标能否在复杂数据集上可靠地区分现实反事实与微小对抗性变化？
RQ2当前指标在多大程度上容易受到微小、难以察觉的改变影响，这些改变虽模仿对抗攻击但缺乏可解释性？
RQ3能否设计出更能捕捉反事实示例真实感和泛化有效性的新指标，且对微小扰动不敏感？
RQ4何种指标组合能提供最可信且全面的视觉反事实质量评估？

主要发现

在复杂数据集（如 CelebA-HQ）上，EN 和 IM1/IM2 等现有指标无法有效区分现实反事实与微小对抗性变化，往往偏好后者。
标签变化度（LVS）成功识别出 GEN 方法在相关标签（如化妆、吸引力、口红）上产生了更具意义和泛化性的改变，而 GL 的 LVS 值较低，表明其行为具有模型特异性，类似对抗性攻击。
最优参考分数正确识别出基于生成的方法（GEN）在改变预测类别方面最有效，优于 GB 和 GL，且与定性评估结果一致。
FID256 与 LVS 的结合可提供对真实感和有效性的可靠评估，而 EN 距离仅在比较 FID 和 LVS 接近的方法时具有参考价值。
微小对抗性变化在传统指标（如 EN 和 IM1/IM2）上始终获得高分，表明这些指标对这类扰动具有显著脆弱性。
所提出的 LVS 和最优参考分数对微小、不现实的改变不敏感，更能反映人类直觉上的反事实质量，尤其在复杂数据上表现更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。