Skip to main content
QUICK REVIEW

[논문 리뷰] Robust Out-of-distribution Detection for Neural Networks

Jiefeng Chen, Yixuan Li|arXiv (Cornell University)|2020. 03. 21.
Adversarial Robustness in Machine Learning참고 문헌 50인용 수 31
한 줄 요약

본 논문은 현대의 OOD 탐지기가 작은 적대적 교란에 대해 내부 분포와 외부 분포 입력 모두에서 취약하다는 것을 보여주고, OOD 탐지를 개선하기 위한 강건한 적대적 학습 방법인 ALOE를 제시한다.

ABSTRACT

Detecting out-of-distribution (OOD) inputs is critical for safely deploying deep learning models in the real world. Existing approaches for detecting OOD examples work well when evaluated on benign in-distribution and OOD samples. However, in this paper, we show that existing detection mechanisms can be extremely brittle when evaluating on in-distribution and OOD inputs with minimal adversarial perturbations which don't change their semantics. Formally, we extensively study the problem of Robust Out-of-Distribution Detection on common OOD detection approaches, and show that state-of-the-art OOD detectors can be easily fooled by adding small perturbations to the in-distribution and OOD inputs. To counteract these threats, we propose an effective algorithm called ALOE, which performs robust training by exposing the model to both adversarially crafted inlier and outlier examples. Our method can be flexibly combined with, and render existing methods robust. On common benchmark datasets, we show that ALOE substantially improves the robustness of state-of-the-art OOD detection, with 58.4% AUROC improvement on CIFAR-10 and 46.59% improvement on CIFAR-100.

연구 동기 및 목표

  • 입력이 적대적으로 교란될 수 있는 열린 세계 배치에서 강건한 OOD 탐지를 촉진한다.
  • 작은 의미 보존 교란 하에서 기존 OOD 탐지기의 취약성을 보여준다.
  • 인라이어와 아웃라이어를 포함한 적대적 학습을 통해 OOD 탐지기를 강건하게 하도록 ALOE를 제안한다.
  • ALOE가 분류 정확도는 유지하면서 강건성을 크게 향상시킨다는 실증적 근거를 제시한다.
  • 재현성과 향후 연구를 촉진하기 위한 재사용 가능한 코드베이스를 제공한다.

제안 방법

  • 입력 주변의 epsilon-볼 내에서 강건한 OOD 탐지와 적대적 교란을 형식적으로 정의한다.
  • ALOE 제안: 음의 로그 가능도(NLL)를 최대화하는 인라이어 교란과 균일 분포로의 KL-발산을 최대화하는 아웃라이어 교란을 포함하는 적대적 학습.
  • 학습을 프로젝티드 그래디언트 디센트(PGD)로 해결되는 미니맥스 최적화로 구성한다.
  • 기존 탐지기(MSP, ODIN 등)와의 통합을 통해 강건성을 향상시키는 ALOE의 적용을 허용한다.
  • 인라이어에 집중하는 ADV와 인라이어/아웃라이어를 결합하는 AOE의 변형을 논의한다.
  • 재현성을 지원하기 위한 동반 코드를 공개한다.

실험 결과

연구 질문

  • RQ1기존의 OOD 탐지기가 내부·외부 입력에 대해 의미를 보존하는 작은 적대적 교란에서 실패하는가?
  • RQ2이러한 공격하에서 ALOE와 같은 강건한 학습 패러다임이 OOD 탐지 성능을 크게 향상시킬 수 있는가?
  • RQ3ALOE가 ODIN과 같은 다른 탐지기와 어떤 상호작용을 하며 잠재적으로 성능을 개선하는가?
  • RQ4적대적 학습이 깨끗한(공격받지 않은) 분류 정확도에 미치는 영향은 무엇인가?
  • RQ5분류기를 목표로 하는 적대적 교란을 OOD 목표를 위해 왜 인라이어로 간주해야 하는지에 대한 통찰은 무엇인가?

주요 결과

  • 고전적 OOD 탐지기(MSP, ODIN, Mahalanobis, OE)는 적대적 교란(epsilon = 1/255, m = 10) 하에서 급격히 성능이 저하된다.
  • ALOE가 강건한 OOD 탐지를 크게 향상시키며, 예를 들어 CIFAR-10에서 공격 하에서 AUROC가 최대 58.4%, CIFAR-100에서 46.59% 향상된다(이전 방법과 비교하여).
  • ALOE는 ODIN과 결합하여 추가 성능 향상을 낼 수 있으며 일반적으로 깨끗한 정확도와 근접한 수준을 유지한다.
  • 작은 교란을 가진 이미지 분류기 f(x)를 겨냥한 적대적 예제는 그들의 강건한 프레임워크하에서 OOD라기보다 인라이어에 속하는 경향이 있다.
  • 인라이어 교란과 KL-발산 기반 교란을 통한 아웃라이어 노출을 이용하는 강건한 학습 목표가 평가된 변형들 중에서 가장 큰 강건성 이득을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.