[논문 리뷰] Implicit Generation and Generalization in Energy-Based Models
논문은 MCMC 샘플링으로 고품질 이미지를 생성하는 연속 에너지 기반 모델(EBMs)을 훈련하고, 모드 커버리지 및 강건성을 시연하며, EBMs의 OOD 탐지, 적대적 강건성, 연속 학습, 경로 예측에 대한 적용 가능성을 보인다.
Energy based models (EBMs) are appealing due to their generality and simplicity in likelihood modeling, but have been traditionally difficult to train. We present techniques to scale MCMC based EBM training on continuous neural networks, and we show its success on the high-dimensional data domains of ImageNet32x32, ImageNet128x128, CIFAR-10, and robotic hand trajectories, achieving better samples than other likelihood models and nearing the performance of contemporary GAN approaches, while covering all modes of the data. We highlight some unique capabilities of implicit generation such as compositionality and corrupt image reconstruction and inpainting. Finally, we show that EBMs are useful models across a wide variety of tasks, achieving state-of-the-art out-of-distribution classification, adversarially robust classification, state-of-the-art continual online class learning, and coherent long term predicted trajectory rollouts.
연구 동기 및 목표
- 고차원 데이터에서 EBM의 확장 가능한 학습 기술을 동기 부여하고 개발한다.
- MCMC( Langevin dynamics )와 재생 버퍼를 통해 암묵적 샘플 생성을 시연하여 혼합을 개선한다.
- 구성 가능성, 디코르럽션(d decorruption ), 인페인팅과 같은 고유한 EBM 특성을 보여준다.
- 이미지 생성, 강건성, OOD 탐지, 트래젝터리 모델링 및 온라인 지속 학습에서 EBMs를 평가한다.
제안 방법
- E_theta(x)로 매개변수화된 신경망 에너지 함수를 학습하여 p_theta(x) ∝ exp(-E_theta(x))로 데이터를 모델링한다.
- 잠재 분포 q_theta에서 샘플을 암묵적으로 추출하기 위해 Langevin dynamics를 사용하며, 노이즈 또는 샘플 재생 버퍼에서 초기화한다.
- 데이터에서 에너지를 낮추고 모델 샘플에서 에너지를 높이는 그라디언트로 ML 목표를 최적화하고, 정규화된 결합 목표를 사용한다.
- 샘플링 안정화 및 분할 함수 적분성을 보장하기 위해 스펙트럴 노멀라이제이션과 L2 정규화를 적용한다.
- 혼합을 개선하고 Langevin 업데이트를 위한 다양한 초기화를 제공하기 위해 샘플 재생 버퍼를 유지한다.
- 데이터 샘플과 생성된 부정 샘플을 사용하여 theta를 업데이트하는 Adam 옵티마이저를 사용하는 훈련 루프를 채택한다.
실험 결과
연구 질문
- RQ1Gradient 기반 MCMC로 훈련된 연속 EBM이 고차원 데이터로 확장 가능하고 경쟁력 있는 샘플을 생성하는가?
- RQ2암묵적 샘플링을 사용할 때 EBM은 모드 커버리지, 디코르럽션 인페인팅, 합성 생성을 보이는가?
- RQ3EBMs는 적대적 교란에 강건하고 OOD 탐지 및 연속 학습이 가능한가?
- RQ4EBMs가 복잡한 트래젝터리를 모델링하고 온라인 지속 학습 과제를 지원할 수 있는가?
- RQ5잠재 인자 간의 합성 및 제로샷 교차-생성 일반화를 EBM이 어느 정도 보여주는가?
주요 결과
| 모델 | 인셉션* | FID |
|---|---|---|
| PixelCNN (Van Oord et al., 2016) | 4.60 | 65.93 |
| PixelIQN (Ostrovski et al., 2018) | 5.29 | 49.46 |
| EBM (single) | 6.02 | 40.58 |
| DCGAN (Radford et al., 2016) | 6.40 | 37.11 |
| WGAN + GP (Gulrajani et al., 2017) | 6.50 | 36.40 |
| EBM (10 historical ensemble) | 6.78 | 38.20 |
| SNGAN (Miyato et al., 2018) | 8.22 | 21.70 |
| CIFAR-10 Conditional – Improved GAN | 8.09 | - |
| EBM (single) – CIFAR-10 Conditional | 8.30 | 37.90 |
| Spectral Normalization GAN | 8.59 | 25.50 |
| PixelCNN (ImageNet 32x32 Conditional) | 8.33 | 33.27 |
| PixelIQN (ImageNet 32x32 Conditional) | 10.18 | 22.99 |
| EBM (single) – ImageNet 32x32 Conditional | 18.22 | 14.31 |
| ACGAN (Odena et al., 2017) | 28.5 | - |
| EBM* (single) | 28.6 | 43.70 |
| SNGAN | 36.8 | 27.62 |
- 라젠만 기반의 암묵적 생성을 갖춘 EBM은 CIFAR-10 및 ImageNet32x32에서 고품질 샘플을 생성하며 GAN 성능에 근접하고 일부 가능도 모델보다 모드 커버리지가 더 좋다.
- EBM은 디코르럽션 및 인페인팅 능력을 보여주며 의미론적 모드 커버리지와 클래스 간 암묵적 샘플링을 나타낸다.
- 조건부 EBM은 적대적 강건성을 달성하고 adversarial training 없이도 L_infty 및 L2 공격에 대해 일부 기준 모델보다 우수한 성능을 보인다.
- OOD 탐지는 EBMs이 여러 OOD 데이터셋에서 AUROC가 더 높아 여러 가능도 모델보다 우수하다.
- EBMs는 FC 대안보다 낮은 Frechet Distance로 다단계 경로 예측을 가능하게 하며 Split MNIST에서 강력한 지속 학습 성능을 보인다.
- 독립적인 EBM의 합산을 통한 합성 생성은 잠재 요인들 간의 제로샷 교차-생성 일반화를 가능하게 하며 잠재 요인의 구성 가능성을 시연한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.