QUICK REVIEW

[논문 리뷰] Metric Learning for Adversarial Robustness

Chengzhi Mao, Ziyuan Zhong|arXiv (Cornell University)|2019. 09. 03.

Adversarial Robustness in Machine Learning인용 수 58

한 줄 요약

본 논문은 Triplet Loss Adversarial (TLA) 학습을 제시한다. 이는 대 metric-learning 기반 규제이며, semi-hard negative mining 전략을 갖춘 adversarial 앵커를 사용하여 클래스 내 표현을 더 촘촘하게 만들고 클래스 간 간격을 확대해 로버스트성 및 적대적 탐지력을 높이고 모델 아키텍처를 변경하지 않는다.

ABSTRACT

Deep networks are well-known to be fragile to adversarial attacks. We conduct an empirical analysis of deep representations under the state-of-the-art attack method called PGD, and find that the attack causes the internal representation to shift closer to the "false" class. Motivated by this observation, we propose to regularize the representation space under attack with metric learning to produce more robust classifiers. By carefully sampling examples for metric learning, our learned representation not only increases robustness, but also detects previously unseen adversarial samples. Quantitative experiments show improvement of robustness accuracy by up to 4% and detection efficiency by up to 6% according to Area Under Curve score over prior work. The code of our work is available at https://github.com/columbia/Metric_Learning_Adversarial_Robustness.

연구 동기 및 목표

적대적 공격이 잠재 표현을 어떻게 왜곡하는지 이해하고 메트릭 학습 기반 정규화를 제시한다.
모델 아키텍처를 보존하면서 강건성과 탐지를 향상시키는 실용적인 TLA 학습 방법을 제안한다.
무타깃 PGD 및 미발견 공격에 대해 데이터셋과 아키텍처 전반에서 TLA를 평가한다.
음수 샘플링과 앵커 선택이 강건성에 미치는 영향을 분석하고 학습에 대한 지침을 제공한다.

제안 방법

종단 직전 레이어에 트립렛 손실을 적용해 같은 클래스의 깨끗한 샘플과 적대적 샘플을 함께 모으고 서로 다른 클래스는 멀리 떨어지게 한다.
앵커로는 PGD로 생성된 적대적 샘플을 사용하고, 포지티브는 같은 클래스의 깨끗한 예시로 유지하며, 네거티브는 다른 클래스의 인접 같은 배치 내에서 가장 가까운 샘플로 한다.
트리플렛 손실을 위한 임베딩 공간에서의 각도 거리(metric)를 정의한다.
적대적 예제에 대한 교차 엔트로피 손실과 트리플렛 손실 및 특징 노름 감소 항을 결합해 학습을 안정화한다.
두 가지 변형을 탐구한다: TLA-RN (랜덤 네가티브) 및 TLA-SA (앵커-그다음 적대적 포지티브). 세미-하드 네거티브가 성능을 향상시킨다는 실증적 증거와 함께.
MNIST, CIFAR-10, Tiny ImageNet 전반에서 untargeted L-infinity 공격(및 다른 노름) 및 다수의 아키텍처로 평가한다.

실험 결과

연구 질문

RQ1메트릭 학습 기반 정규화가 모델 아키텍처를 변경하지 않고도 적대적 강건성을 향상시킬 수 있는가?
RQ2적대적 앵커와 세미-하드 네거티브 마이닝이 임베딩 기하학에 공격 하에서 어떤 영향을 미치는가?
RQ3TLA가 본 적 없는 공격 유형과 다른 모델 아키텍처에 일반화되는가?
RQ4앵커 선택 및 네거티브 샘플링 전략이 강건성과 탐지 성능에 어떤 영향을 주는가?

주요 결과

TLA는 CIFAR-10에서 강력한 20-step PGD 공격 대비 기준선보다 최대 4%의 적대적 정확도 향상을 보인다.
TLA는 적대적 샘플 탐지 성능을 향상시켜 적대적 예제 탐지에서 최대 약 6% 내외의 AUC 상승을 달성한다.
세미-하드 네거티브 마이닝(미니배치 내 가까운 네거티브)이 무작위 네거티브보다 성능을 높이고 강건성을 향상시킨다.
TLA는 미발견 공격 유형(L0 및 L2)에도 일반화되며 CIFAR-10 및 MNIST에서 주목할 만한 이득을 보여준다.
TLA는 적대적 섭동 하에서 임베딩 공간에서의 최근접 이웃 일관성을 향상시켜 강건한 검색 및 탐지에 기여한다.
TLA는 여러 아키텍처(LeNet, WRN, MLP, ConvNet)에서 일관된 강건성 이득을 보이며 효과적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.