Skip to main content
QUICK REVIEW

[논문 리뷰] Attend, Infer, Repeat: Fast Scene Understanding with Generative Models

S. M. Ali Eslami, Nicolas Heess|arXiv (Cornell University)|2016. 03. 28.
Generative Adversarial Networks and Image Synthesis참고 문헌 32인용 수 248
한 줄 요약

AIR은 가변 개체 수를 갖는 비지도 씬 파싱을 위한 암모타이즈드, 순환 주의 기반 추론 프레임워크를 도입하여 빠르고 해석 가능한 2D 및 3D 씬 이해를 엔드 투 엔드 학습으로 가능하게 한다.

ABSTRACT

We present a framework for efficient inference in structured image models that explicitly reason about objects. We achieve this by performing probabilistic inference using a recurrent neural network that attends to scene elements and processes them one at a time. Crucially, the model itself learns to choose the appropriate number of inference steps. We use this scheme to learn to perform inference in partially specified 2D models (variable-sized variational auto-encoders) and fully specified 3D models (probabilistic renderers). We show that such models learn to identify multiple objects - counting, locating and classifying the elements of a scene - without any supervision, e.g., decomposing 3D images with various numbers of objects in a single forward pass of a neural network. We further show that the networks produce accurate inferences when compared to supervised counterparts, and that their structure leads to improved generalization.

연구 동기 및 목표

  • 씬 이해를 객체로 분해하는 베이시안 생성 모델 접근법을 동기화하고 형식화한다.
  • 가변 객체 수와 공간적 주의(attention)를 다룰 수 있는 효율적인, 암모타이즈드 추론 메커니즘을 개발한다.
  • 구조화된 AIR 모델이 해석 가능한 표현과 비구조적 VAE보다 향상된 일반화 성능을 보여준다는 것을 입증한다.
  • 부분적으로 지정된 2D 모델과 완전히 지정된 3D 렌더러 모두에 AIR의 적용 가능성을 보여준다.
  • 전통적 최적화나 지도 학습 접근법에 비해 추론의 속도와 견고성을 강조한다.

제안 방법

  • p_theta(x)를 (未知의) 개체 수에 대해 각 개체의 잠재 변수 z^i와 존재 변수 z_pres^i를 가진 합으로 표현한다.
  • 은닉변수 z, n에 대한 암모타이즈드 변분 포스트eriors q_phi(z, n | x)를 시간 단위당 하나의 객체에 주의를 기울이고 z_pres가 더 이상 객체가 없음을 나타낼 때 종료될 수 있는 반복적 순환 네트워크로 구현한다.
  • theta와 phi에 대해 증거 하한(Evidence Lower Bound)을 최대화하는 방식으로 엔드 투 엔드로 학습하되 연속 변수에 대해 재매개화(reparameterization)를, 이산 변수에 대해 로지스틱-비율 추정치를 사용한다.
  • 2D 설정에서 각 객체를 학습된 형태 코드 z_what와 자세 z_where로 모델링하고, 3D 설정에서는 객체를 신원(identity)과 포즈 변수로 모델링하며 확률적 렌더러를 통해 렌더링한다.
  • 공간 변환기(spatial transformers)와 주의(attention)을 도입하여 점진적 재구성과 추론을 위한 객체 중심 패치를 추출한다.
  • 실험적으로 AIR가 다중 객체가 포함된 씬을 비지도 방식으로 분해하고 수, 신원, 포즈를 갖는 빠른 3D 씬 추론을 수행할 수 있음을 보여준다.

실험 결과

연구 질문

  • RQ1감독 없이도 순환적 주의 기반 추론 네트워크가 씬에서 객체의 수와 속성을 정확하게 추론할 수 있는가?
  • RQ2구조화된 사전 분포와 가변 길이의 추론을 도입하는 것이 비구조적 생성 모델에 비해 일반화와 재구성 품질에 어떤 영향을 미치는가?
  • RQ3AIR가 2D 부분적으로 지정된 모델과 완전히 지정된 3D 렌더러 모두에 대해 빠른 암모타이즈드 추론을 수행할 수 있는가?
  • RQ4학습된 표현이 제한된 라벨 데이터로 개수 세기, 위치 추정, 분류와 같은 유용한 다운스트림 작업을 지원하는가?
  • RQ5AIR가 속도, 견고성 면에서 감독 학습 또는 비암모타이즈드 추론 방법과 비교하여 어떤 이점을 보이는가?

주요 결과

  • AIR은 비지도 방식으로 씬 요소를 개수화, 위치화, 분류하는 것을 학습한다.
  • 반복적이고 주의가 적용된 추론 네트워크는 더 이상 객체가 남지 않으면 조기에 종료될 수 있어 가변 길이의 계산이 가능하다.
  • AIR은 다중 객체와 가려짐이 있는 씬을 빠르게 순방향 추론으로 분해하며, 비구조적 기준선 중 일부보다 일반화에서 우수한 성능을 보인다.
  • 2D 실험에서 AIR는 DRAW 및 DAIR와의 비교를 포함하여 보지 못한 개수 및 구성으로의 일반화가 강하게 나타난다.
  • 3D 실험에서 AIR은 렌더링된 및 실제 탁상 씬에서 개수, 신원, 포즈를 추론하며, 완전히 감독된 접근법보다 더 견고하고 최적화 난이도가 감소하는 경향을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.