QUICK REVIEW

[논문 리뷰] Attend, Infer, Repeat: Fast Scene Understanding with Generative Models

S. M. Ali Eslami, Nicolas Heess|arXiv (Cornell University)|2016. 03. 28.

Generative Adversarial Networks and Image Synthesis참고 문헌 32인용 수 248

한 줄 요약

AIR은 가변 개체 수를 갖는 비지도 씬 파싱을 위한 암모타이즈드, 순환 주의 기반 추론 프레임워크를 도입하여 빠르고 해석 가능한 2D 및 3D 씬 이해를 엔드 투 엔드 학습으로 가능하게 한다.

ABSTRACT

We present a framework for efficient inference in structured image models that explicitly reason about objects. We achieve this by performing probabilistic inference using a recurrent neural network that attends to scene elements and processes them one at a time. Crucially, the model itself learns to choose the appropriate number of inference steps. We use this scheme to learn to perform inference in partially specified 2D models (variable-sized variational auto-encoders) and fully specified 3D models (probabilistic renderers). We show that such models learn to identify multiple objects - counting, locating and classifying the elements of a scene - without any supervision, e.g., decomposing 3D images with various numbers of objects in a single forward pass of a neural network. We further show that the networks produce accurate inferences when compared to supervised counterparts, and that their structure leads to improved generalization.

연구 동기 및 목표

씬 이해를 객체로 분해하는 베이시안 생성 모델 접근법을 동기화하고 형식화한다.
가변 객체 수와 공간적 주의(attention)를 다룰 수 있는 효율적인, 암모타이즈드 추론 메커니즘을 개발한다.
구조화된 AIR 모델이 해석 가능한 표현과 비구조적 VAE보다 향상된 일반화 성능을 보여준다는 것을 입증한다.
부분적으로 지정된 2D 모델과 완전히 지정된 3D 렌더러 모두에 AIR의 적용 가능성을 보여준다.
전통적 최적화나 지도 학습 접근법에 비해 추론의 속도와 견고성을 강조한다.

제안 방법

p_theta(x)를 (未知의) 개체 수에 대해 각 개체의 잠재 변수 z^i와 존재 변수 z_pres^i를 가진 합으로 표현한다.
은닉변수 z, n에 대한 암모타이즈드 변분 포스트eriors q_phi(z, n | x)를 시간 단위당 하나의 객체에 주의를 기울이고 z_pres가 더 이상 객체가 없음을 나타낼 때 종료될 수 있는 반복적 순환 네트워크로 구현한다.
theta와 phi에 대해 증거 하한(Evidence Lower Bound)을 최대화하는 방식으로 엔드 투 엔드로 학습하되 연속 변수에 대해 재매개화(reparameterization)를, 이산 변수에 대해 로지스틱-비율 추정치를 사용한다.
2D 설정에서 각 객체를 학습된 형태 코드 z_what와 자세 z_where로 모델링하고, 3D 설정에서는 객체를 신원(identity)과 포즈 변수로 모델링하며 확률적 렌더러를 통해 렌더링한다.
공간 변환기(spatial transformers)와 주의(attention)을 도입하여 점진적 재구성과 추론을 위한 객체 중심 패치를 추출한다.
실험적으로 AIR가 다중 객체가 포함된 씬을 비지도 방식으로 분해하고 수, 신원, 포즈를 갖는 빠른 3D 씬 추론을 수행할 수 있음을 보여준다.

실험 결과

연구 질문

RQ1감독 없이도 순환적 주의 기반 추론 네트워크가 씬에서 객체의 수와 속성을 정확하게 추론할 수 있는가?
RQ2구조화된 사전 분포와 가변 길이의 추론을 도입하는 것이 비구조적 생성 모델에 비해 일반화와 재구성 품질에 어떤 영향을 미치는가?
RQ3AIR가 2D 부분적으로 지정된 모델과 완전히 지정된 3D 렌더러 모두에 대해 빠른 암모타이즈드 추론을 수행할 수 있는가?
RQ4학습된 표현이 제한된 라벨 데이터로 개수 세기, 위치 추정, 분류와 같은 유용한 다운스트림 작업을 지원하는가?
RQ5AIR가 속도, 견고성 면에서 감독 학습 또는 비암모타이즈드 추론 방법과 비교하여 어떤 이점을 보이는가?

주요 결과

AIR은 비지도 방식으로 씬 요소를 개수화, 위치화, 분류하는 것을 학습한다.
반복적이고 주의가 적용된 추론 네트워크는 더 이상 객체가 남지 않으면 조기에 종료될 수 있어 가변 길이의 계산이 가능하다.
AIR은 다중 객체와 가려짐이 있는 씬을 빠르게 순방향 추론으로 분해하며, 비구조적 기준선 중 일부보다 일반화에서 우수한 성능을 보인다.
2D 실험에서 AIR는 DRAW 및 DAIR와의 비교를 포함하여 보지 못한 개수 및 구성으로의 일반화가 강하게 나타난다.
3D 실험에서 AIR은 렌더링된 및 실제 탁상 씬에서 개수, 신원, 포즈를 추론하며, 완전히 감독된 접근법보다 더 견고하고 최적화 난이도가 감소하는 경향을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.