[논문 리뷰] Learning Generative Models with Visual Attention
이 논문은 수동으로 자르지 않은 대규모 비정제된 장면에서 얼굴 이미지를 국소화하고 생성하는 데에 주목하는 딥 생성 모델을 제안한다. 컨volutional 신경망을 이용한 근사 추론과 하미льт로니안 몬테 카를로 샘플링을 조합함으로써, 모델은 객체 영역에 동적으로 주목하게 되어, 국소화 레이블이 없는 훈련 데이터 조건에서도 얼굴 데이터셋에서 최신의 생성 성능를 달성한다.
Attention has long been proposed by psychologists as important for effectively dealing with the enormous sensory stimulus available in the neocortex. Inspired by the visual attention models in computational neuroscience and the need of object-centric data for generative models, we describe for generative learning framework using attentional mechanisms. Attentional mechanisms can propagate signals from region of interest in a scene to an aligned canonical representation, where generative modeling takes place. By ignoring background clutter, generative models can concentrate their resources on the object of interest. Our model is a proper graphical model where the 2D Similarity transformation is a part of the top-down process. A ConvNet is employed to provide good initializations during posterior inference which is based on Hamiltonian Monte Carlo. Upon learning images of faces, our model can robustly attend to face regions of novel test subjects. More importantly, our model can learn generative models of new faces from a novel dataset of large images where the face locations are not known.
연구 동기 및 목표
- 객체 위치가 알려지지 않은 대규모 비정제된 이미지에서 생성 모델을 훈련시키는 도전 과제를 해결한다.
- 유의미한 시각적 특징을 정준 표현으로 동적으로 라우팅함으로써 객체 중심의 생성 모델링을 가능하게 한다.
- 고품질 학습을 위해 정제되고 자른 데이터가 필요한 전통적 생성 모델의 한계를 극복한다.
- 시각 신경과학에서 영감을 얻은 주의 메커니즘을 통합하여 배경의 혼잡함과 가림 현상에 대한 강건성을 향상시킨다.
- 약한 지도 학습 또는 레이블 없이도 원시적인 대규모 이미지에서 엔드 투 엔드로 생성 모델을 학습할 수 있음을 입증한다.
제안 방법
- 보기 단위에서 복잡한 데이터 분포를 포착하기 위해 핵심 생성 모델로 가우시안 제한 없는 봄베르만 기계(GRBM)를 사용한다.
- 영역 관심 영역 특징을 정준 객체 표현에 맞추기 위해 2차원 유사성 변환(확대, 회전, 이동)을 구현한다.
- 이미지 내 주의 위치(u)를 추정하기 위해 사전 추론을 위한 컨volutional 신경망(ConvNet)을 훈련한다.
- 주의 위치 및 은닉 변수에 대한 복잡한 후행 분포를 탐색하기 위해 하미льт로니안 몬테 카를로(HMC) 샘플링을 적용한다.
- 이중 단계 훈련 과정을 사용한다: 먼저 레이블이 있는 데이터(예: CMU 얼굴 데이터의 10%)로 ConvNet을 사전 훈련한 후, 추론된 주의 위치를 사용하여 생성 모델을 미세 조정한다.
- 모델의 로그우도를 추정하고 성능을 평가하기 위해 변분 하한과 안내된 중요도 샘플링(AIS)을 활용한다.
실험 결과
연구 질문
- RQ1주의 메커니즘이 수동으로 객체 국소화를 하지 않은 대규모 비정제된 이미지에서 학습 가능한 딥 생성 모델을 가능하게 할 수 있는가?
- RQ2컨볼루션넷 기반 추론과 HMC 기반 샘플링을 조합한 하이브리드 접근 방식이 복잡한 후행 분포를 모델링하는 데 얼마나 효과적인가?
- RQ3객체 위치가 알려지지 않은 조건에서, 한 데이터셋(예: Caltech)에서 훈련된 생성 모델이 다른 데이터셋(예: CMU)으로 얼마나 일반화되는가?
- RQ4정준 객체 표현에 기반한 주의 메커니즘의 조건화가 국소화 정확도와 생성 품질을 향상시키는가?
- RQ5정준 얼굴 표현을 다양하게 조절했을 때, 단일 이미지 내에서 여러 얼굴에 안정적으로 주목할 수 있는가?
주요 결과
- 수동 레이블 없이 추론된 주의 위치를 사용하여 훈련한 결과, CMU 검증 세트에서 이미지당 387 nats의 변분 하한을 달성했으며, Caltech 데이터만으로 훈련했을 때의 85 nats에서 크게 향상되었다.
- 완전한 지도 학습(수동 국소화 레이블) 조건에서, 이미지당 503 nats에 도달하여 약한 지도 학습이 완전 지도 학습 성능에 근접할 수 있음을 보여주었다.
- CMU 데이터로 미세 조정한 후 생성된 샘플은 Caltech 전용 모델보다 훨씬 더 높은 다양성과 현실감을 보였다.
- 동일한 초기 시선 위치를 가진 상태에서, 조건화된 정준 얼굴에 따라 주의 메커니즘이 장면 내 다른 얼굴로 성공적으로 초점을 이동시켰다.
- 이미지의 복잡한 배경과 가림 현상이 있는 새로운 테스트 이미지에서도 모델은 사전 자르기 없이도 얼굴을 안정적으로 국소화하였다.
- 컨볼루션넷 기반 근사 추론과 HMC 샘플링의 조합은 고차원 후행 분포를 효과적으로 탐색할 수 있게 하여 안정적이고 고품질의 생성 결과를 이끌어냈다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.