QUICK REVIEW

[论文解读] Metric Learning for Adversarial Robustness

Chengzhi Mao, Ziyuan Zhong|arXiv (Cornell University)|Sep 3, 2019

Adversarial Robustness in Machine Learning被引用 58

一句话总结

本文提出 Triplet Loss Adversarial (TLA) training，一种基于度量学习的正则化方法，使用带有 semi-hard 负样本挖掘策略的对抗锚点，以收紧同类内表征并扩大类间边界，在不改变模型架构的前提下提升鲁棒性与对抗检测能力。

ABSTRACT

Deep networks are well-known to be fragile to adversarial attacks. We conduct an empirical analysis of deep representations under the state-of-the-art attack method called PGD, and find that the attack causes the internal representation to shift closer to the "false" class. Motivated by this observation, we propose to regularize the representation space under attack with metric learning to produce more robust classifiers. By carefully sampling examples for metric learning, our learned representation not only increases robustness, but also detects previously unseen adversarial samples. Quantitative experiments show improvement of robustness accuracy by up to 4% and detection efficiency by up to 6% according to Area Under Curve score over prior work. The code of our work is available at https://github.com/columbia/Metric_Learning_Adversarial_Robustness.

研究动机与目标

了解对抗攻击如何扭曲潜在表征并引出基于度量学习的正则化动机。
提出一个实用的 TLA training 方法，在保持模型架构的同时提升鲁棒性和检测能力。
在不同数据集和架构上评估 TLA 对抗未定向 PGD 及未知攻击的鲁棒性。
分析负样本采样和锚点选择对鲁棒性的影响，并为训练提供指导。

提出的方法

在倒数第二层应用 triplet loss，将同一类别的干净样本和对抗样本聚拢在一起，并将不同类别拉开。
将由 PGD 生成的对抗样本作为锚点，而将正样本保留为同一类别的干净样本，负样本来自来自其他类别的同一批次中最近的样本。
在嵌入空间为 triplet loss 定义一个角度距离度量。
将对抗样本上的交叉熵损失与 triplet loss 以及一个特征范数衰减项结合，以稳定训练。
探索两种变体：TLA-RN (random negatives) 与 TLA-SA (anchor-then-adversarial positive)，并有经验证据表明 semi-hard negatives 能提升性能。
在 MNIST、CIFAR-10 和 Tiny ImageNet 上对未定向 L-infinity 攻击（以及其他范数）以及多种架构进行评估。

实验结果

研究问题

RQ1基于度量学习的正则化是否能够在不改变模型架构的情况下提升对抗鲁棒性？
RQ2在攻击条件下，带对抗锚点和 semi-hard 负样本挖掘的 triplet loss 如何影响嵌入几何？
RQ3TLA 是否能泛化到未见过的攻击类型和不同的模型架构？
RQ4锚点选择与负样本采样策略对鲁棒性和检测性能的影响是什么？

主要发现

与基线相比，在强力的 20-step PGD 攻击下，TLA 将 CIFAR-10 的对抗准确率提高了最多 4%。
TLA 提升对抗样本检测，在对抗样本检测中实现最高约 6% 的 AUC 提升。
semi-hard negative mining（小批量最近负样本）优于随机负样本并提升鲁棒性。
TLA 能泛化到未见过的攻击类型（L0 和 L2），在 CIFAR-10 和 MNIST 上获得显著提升。
在对抗扰动下，TLA 提供更好的嵌入空间最近邻一致性，助力鲁棒检索与检测。
在多种架构（LeNet、WRN、MLP、ConvNet）上都有效，具有稳定的鲁棒性增益。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。