Skip to main content
QUICK REVIEW

[논문 리뷰] Adversarial Robustness as a Prior for Learned Representations

Logan Engstrom, Andrew Ilyas|arXiv (Cornell University)|2019. 06. 03.
Adversarial Robustness in Machine Learning참고 문헌 49인용 수 76
한 줄 요약

이 논문은 적대적으로 강건한 네트워크가 학습한 표현이 인간-정합적이고 대략적으로 역전 가능하며 쉽게 시각화할 수 있는 특징 임베딩의 선행(prior)으로 작용하여 의미적 역전, 시각화 및 조작을 가능하게 한다.

ABSTRACT

An important goal in deep learning is to learn versatile, high-level feature representations of input data. However, standard networks' representations seem to possess shortcomings that, as we illustrate, prevent them from fully realizing this goal. In this work, we show that robust optimization can be re-cast as a tool for enforcing priors on the features learned by deep neural networks. It turns out that representations learned by robust models address the aforementioned shortcomings and make significant progress towards learning a high-level encoding of inputs. In particular, these representations are approximately invertible, while allowing for direct visualization and manipulation of salient input features. More broadly, our results indicate adversarial robustness as a promising avenue for improving learned representations. Our code and models for reproducing these results is available at https://git.io/robust-reps .

연구 동기 및 목표

  • 표준 표현이 인간이 해석할 수 있는 고수준 특징을 포착하는 데 한계를 보임을 입증한다.
  • 강건한 최적화가 학습된 표현에 인간 지각과 일치하는 선행(prior)을 유도함을 보인다.
  • 강건한 표현이 대략적으로 역전 가능하고 직접적인 시각화 및 조작에 용이한지 조사한다.

제안 방법

  • Restricted ImageNet와 ImageNet에서 표준 및 강건한 목적 함수로 ResNet-50 모델을 학습한다.
  • PGD 기반의 강건 최적화를 사용하여 섭동 집합 내에서 최악의 경우 손실을 최소화한다.
  • 역전 및 시각화 작업을 포함하여 표준 모델과 강건한 모델 간의 표현 특성을 비교한다.

실험 결과

연구 질문

  • RQ1강건한 표현이 표준 모델에서 관찰되는 학습된 특징과 인간이 지각하는 특징 사이의 불일치를 완화하는가?
  • RQ2강건한 표현은 대략적으로 역전 가능하며 과도한 정규화 없이도 직접적인 시각화에 적합한가?
  • RQ3강건한 표현이 특징 조작과 입력 간 의미적으로 의미 있는 보간을 지원하는가?
  • RQ4역전 및 시각화 측면에서 분포를 벗어난 입력에 대해 강건한 표현은 어떤 성능을 보이는가?

주요 결과

  • 강건한 표현은 대략적으로 역전 가능하며, 가까운 표현에 대해 의미적으로 유사한 입력을 생성한다.
  • 강건한 표현에 대한 직접 최적화는 정규화 없이도 사람에게 인식 가능한 시각화를 산출한다.
  • 강건한 표현은 첫 차원(일차) 최적화를 통해 중요한 특징을 이미지에 추가하여 특징 조작이 가능하다.
  • 역전은 분포를 벗어난 입력에서도 여전히 의미가 있으며, 인간 지각에 맞춘 특징을 시사한다.
  • 임의의 입력 간 표현 공간의 보간은 지각적으로 그럴듯한 전이를 만들어낸다.
  • 강건 최적화는 표준 모델보다 인간 지각에 더 부합하는 특징 임베딩을 얻는 선행(prior)으로 작용한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.