Skip to main content
QUICK REVIEW

[논문 리뷰] Invertible Residual Networks

Jens Behrmann, Will Grathwohl|arXiv (Cornell University)|2018. 11. 02.
Generative Adversarial Networks and Image Synthesis참고 문헌 53인용 수 170
한 줄 요약

본 논문은 표준 ResNet을 각 잔차 블록에 리프시츠 제약을 적용하여 가역적으로(i-ResNets) 만들 수 있음을 보여준다. 이를 통해 단일 아키텍처로 분류와 해석 가능한 밀도 추정/생성을 수행할 수 있다. 가역성은 간단한 훈련 정규화와 고정점 역함수를 통해 달성되며, 경쟁력 있는 판별 성능과 흐름 기반 생성 모델링 성능을 제공한다.

ABSTRACT

We show that standard ResNet architectures can be made invertible, allowing the same model to be used for classification, density estimation, and generation. Typically, enforcing invertibility requires partitioning dimensions or restricting network architectures. In contrast, our approach only requires adding a simple normalization step during training, already available in standard frameworks. Invertible ResNets define a generative model which can be trained by maximum likelihood on unlabeled data. To compute likelihoods, we introduce a tractable approximation to the Jacobian log-determinant of a residual block. Our empirical evaluation shows that invertible ResNets perform competitively with both state-of-the-art image classifiers and flow-based generative models, something that has not been previously achieved with a single architecture.

연구 동기 및 목표

  • ResNet을 차원 분할 없이 가역적으로 만들어 discriminative와 generative 모델링을 연결한다.
  • Residual 블록에 Lipschitz 제약을 보장하여 가역성을 보장한다.
  • 레이블이 없는 데이터에 대해 가능도 기반 훈련과 처리 가능한 밀도 추정을 가능하게 한다.
  • 이미지 분류에서 경쟁력 있는 성능과 경쟁력 있는 생성 모델링 결과를 보여준다.
  • i-ResNets를 듀얼 작업에서 학습하고 사용하는 데 대한 실용적인 지침을 제공한다.

제안 방법

  • ResNet 블록을 Lip(h) 제약을 가진 잔차 매핑 Fθ = I + gθt로 취급하고 모든 t에 대해 Lip(gθt) < 1로 설정한다.
  • Banach 고정점 정리에 따라 Fθ^{-1}를 얻기 위해 고정점 반복법으로 레이어를 역으로 계산한다.
  • ||Wi||2 < 1(보수적 스케일링 c < 1 포함)을 보장하도록 각 선형 계층의 스펙트럼 정규화를 통해 Lipschitz 제약을 강제한다.
  • Hutchinson의 추적 추정기와 잘린 급수(k 항)를 사용한 tr(log(I + Jg(x)))의 처리 가능한 멱급수 근사를 통해 가능도에 필요한 로그 행렬식을 계산한다.
  • 스펙트럴 정규화, 확률적 로그-행렬식 추정, 고정점 역계산을 결합하는 순전파 알고리즘(Algorithm 2)을 제공한다.
  • Neural ODEs 및 다른 가역 구조와의 관계를 논의하고 모델 간 해석적/역적 특성을 비교한다.
  • 밀도 추정을 위한 정상화 흐름으로 i-ResNets를 학습시키고, 샘플은 z ~ pz를 샘플링하고 역 F^{-1}을 적용하여 생성한다.
  • 로그-행렬식의 차원이 커지는 경우에도 확장 가능한 근사를 사용해 성능 저하를 줄이고 차원 수가 늘어나도 처리 가능한 계산을 제공한다.

실험 결과

연구 질문

  • RQ1표준 ResNet 아키텍처를 차원 분할이나 제한적 설계 없이 가역적으로 만들 수 있는가?
  • RQ2Lipshitz 제약을 강제하는 것이 안정적이고 처리 가능한 밀도 추정 및 생성을 가능하게 하면서 판별 성능을 유지하는가?
  • RQ3i-ResNet은 분류 및 생성 작업에서 NICE, i-RevNet, Real-NVP, Glow, FFJORD 등의 다른 가역 아키텍처와 어떻게 비교되는가?
  • RQ4실용적인 가이드라인(예: 스펙트럼 정규화 계수, 멱급수 항의 수)이 정확한 역 계산과 로그-행렬식 추정에 어떤 영향을 미치는가?

주요 결과

  • i-ResNets는 Lip(g) < 1 제약을 스펙트럼 정규화를 통해 강제로 적용해도 MNIST, CIFAR-10, CIFAR-100에서 분류 정확도에 큰 악영향 없이 가역적으로 만들 수 있다.
  • i-ResNet 블록의 역은 Banach의 고정점 정리에 기반한 고정점 반복으로 계산 가능해 안정적인 복원성을 확보한다.
  • i-ResNets는 표준 ResNet과 비교해 판별 성능이 경쟁력 있고 CIFAR-10 분류 작업에서 여러 Glow 변형보다 우수한 것으로 나타난다.
  • 생성 모델로서 i-ResNets는 Glow 및 FFJORD에 비해 밀도 추정과 샘플 품질에서 경쟁력을 보이며, 로그-행렬식 추정기의 바이어스와 최적화 문제로 인해 성능 차이가 발생하는 부분이 있다.
  • 제안된 로그-행렬식 근사(절편된 멱급수와 Hutchinson 추적 추정기)를 통해 차원이 커져도 확장 가능하며 i-ResNet 흐름에 대한 처리 가능한 가능도 계산을 제공한다.
  • 표 비교에서 i-ResNets가 MNIST 및 CIFAR-10에서 경쟁력 있는 비트/차원 수를 달성하는 것으로 나타났으며, 예를 들어 MNIST는 i-ResNet에서 약 1.06 비트/차원, FFJORD는 0.99 비트/차원, CIFAR-10은 약 3.45 비트/차원 수준이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.