QUICK REVIEW

[논문 리뷰] Out-of-Distribution Detection using Multiple Semantic Label Representations

Gabi Shalev, Yossi Adi|arXiv (Cornell University)|2018. 08. 20.

Adversarial Robustness in Machine Learning참고 문헌 40인용 수 37

한 줄 요약

이 논문은 훈련 중에 다수의 의미적 단어 임베딩을 감독 신호로 사용하여, 모델이 출력 표현의 L2-노름을 통해 이상치(Out-of-Distribution, OOD), 적대적 예외 및 잘못 분류된 예제를 탐지할 수 있도록 하는 새로운 OOD 탐지 방법을 제안한다. 이 방법은 적대적 예제에 대해 62.04%의 탐지율을 기록하며, 앙상블 기반 베이스라인 대비 18% 높은 성능을 보이며, 감독 신호의 의미적 다양성을 통해 강건성을 유지한다.

ABSTRACT

Deep Neural Networks are powerful models that attained remarkable results on a variety of tasks. These models are shown to be extremely efficient when training and test data are drawn from the same distribution. However, it is not clear how a network will act when it is fed with an out-of-distribution example. In this work, we consider the problem of out-of-distribution detection in neural networks. We propose to use multiple semantic dense representations instead of sparse representation as the target label. Specifically, we propose to use several word representations obtained from different corpora or architectures as target labels. We evaluated the proposed model on computer vision, and speech commands detection tasks and compared it to previous methods. Results suggest that our method compares favorably with previous work. Besides, we present the efficiency of our approach for detecting wrongly classified and adversarial examples.

연구 동기 및 목표

딥 네ural 네트워크에서 모델이 과도하게 확신하는 예측을 내보내는 이상치 입력을 탐지하는 데 있어 핵심적인 과제를 해결하기 위해.
앙상블 훈련이나 아키텍처 수정 없이도 DNN의 불확실성 추정을 향상시키기 위해.
단어 임베딩의 의미적 다양성을 감독 재현성의 형태로 활용하여 탐지 강건성을 향상시키기 위해.
모델의 출력 표현의 L2-노름이 신뢰도 기반 OOD 탐지 점수로 유의미한지 조사하기 위해.
시각 및 음성 작업 전반에 걸쳐 적대적 및 잘못 분류된 예제를 포함해 평가하기 위해.

제안 방법

각 클래스에 대해 표준 one-hot 인코딩 대신 서로 다른 어휘 집합 또는 아키텍처에서 유래한 다수의 고유한 단어 임베딩을 타겟 레이블로 사용하여 모델을 훈련한다.
각 클래스는 K개의 다른 의미적 표현으로 감독되며, 입력 특징에서 이러한 임베딩을 예측하기 위해 K개의 회귀 헤드를 학습한다.
추론 단계에서는 모든 K개의 회귀 헤드에서의 예측을 통합하고, 출력 벡터의 L2-노름을 OOD 탐지용 신뢰도 점수로 사용한다.
다양한 훈련 데이터와 아키텍처를 통해 임베딩 간의 의미적 구조를 활용하여 의미적으로 일관된 예측을 생성하면서도 다양성을 도입한다.
모든 회귀 헤드 간에 공통된 특징 표현을 공유함으로써 파라미터 효율성과 공유된 특징 학습을 가능하게 한다.
출력의 L2-노름에 임계값을 설정하여 입력을 내재된 분포 또는 이상치로 분류하며, 검증 데이터 기반의 경험적 튜닝을 통해 설정한다.

실험 결과

연구 질문

RQ1표준 one-hot 레이블링 대비 다수의 의미적 단어 임베딩을 감독 신호로 사용할 경우 이상치 탐지 성능이 향상되는가?
RQ2모델의 출력 표현의 L2-노름이 불확실성과 이상치 상태와 상관관계가 있는가?
RQ3제안된 방법은 적대적 예제 탐지에서 앙상블 기반 접근법과 비교해 어떻게 성능을 냈는가?
RQ4L2-노름은 잘못 분류된 예제를 탐지할 수 있으며, 이들의 표현 노름에는 일관된 패턴이 존재하는가?
RQ5모델의 아키텍처 변경 없이도 표준 감독 외 추가 훈련 없이 이상치 입력을 탐지할 수 있는가?

주요 결과

제안된 방법은 적대적 예제에 대해 62.04%의 탐지율을 기록하였으며, 앙상블 기반 베이스라인의 43.88%보다 유의미하게 높았다.
거짓 경고율을 3%로 제한했을 때, 제안된 방법은 28.64%의 탐지율을 기록하였고, 앙상블 기반 방법은 15.41%로, 13%의 개선을 보였다.
적대적 예제에서는 앙상블 대비 예측 간 이질성(순위 차이 측정)이 더 높게 나타나, 노이즈에 대한 민감도가 높다는 것을 시사했다.
잘못 분류된 예제와 이상치 예제는 모두 정확하게 분류된 예제보다 출력 표현의 L2-노름이 유의미하게 낮게 나타났다.
ImageNet OOD 탐지에서 AUROC는 89.58, AUPR-Out는 47.2를 기록하였으며, 앙상블 기반 베이스라인 대비 AUPR-Out에서 우수한 성능을 보였다.
출력 표현의 L2-노름은 불확실성의 신뢰할 수 있는 지표로 확인되었으며, 이는 이전 연구에서의 표현 노름 연구 결과와 일치했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.