QUICK REVIEW

[논문 리뷰] Multi-Object Representation Learning with Iterative Variational Inference

Klaus Greff, Raphaël Lopez Kaufman|arXiv (Cornell University)|2019. 03. 01.

Domain Adaptation and Few-Shot Learning참고 문헌 33인용 수 176

한 줄 요약

IODINE는 반복적 변분 개선을 통한 비지도 다중 객체 장면 분해를 학습하여 객체 친화적 표현, 인페인팅 및 더 많은 객체와 보지 않은 특징 조합으로의 일반화를 가능하게 한다.

ABSTRACT

Human perception is structured around objects which form the basis for our higher-level cognition and impressive systematic generalization abilities. Yet most work on representation learning focuses on feature learning without even considering multiple objects, or treats segmentation as an (often supervised) preprocessing step. Instead, we argue for the importance of learning to segment and represent objects jointly. We demonstrate that, starting from the simple assumption that a scene is composed of multiple entities, it is possible to learn to segment images into interpretable objects with disentangled representations. Our method learns -- without supervision -- to inpaint occluded parts, and extrapolates to scenes with more objects and to unseen objects with novel feature combinations. We also show that, due to the use of iterative variational inference, our system is able to learn multi-modal posteriors for ambiguous inputs and extends naturally to sequences.

연구 동기 및 목표

다중 객체를 사전 처리 단계로 다루지 않고 공동으로 세분화하고 표현하는 표현 학습을 자극한다.
공유된 디코딩을 가진 독립 객체 슬롯으로 장면을 인코딩하는 다중 슬롯 공간 혼합 모델을 제안한다.
감독 없이 객체 수준의 잠재변량과 분할을 추론하는 반복적 추정 추론 절차를 개발한다.
감독 없이 분할, 가려진 부분의 인페인팅, 그리고 보지 못한 객체 수와 특징 조합으로의 일반화를 시연한다.

제안 방법

각 장면을 K 개의 잠재 객체 벡터 z_k로 표현하며, 이들이 각 슬롯 마스크 m_k를 가진 공간 가우시안 혼합 모델을 통해 이미지를 생성한다.
각 z_k를 픽셀 단위의 외관 μ_k와 마스크 로짓으로 디코딩하고, 소프트맥스로 슬롯 간 마스크를 정규화하여 전체 가능도 p(x|z)를 형성한다.
암묵화된 추론 네트워크 f_φ를 사용하여 T 반복 동안 후사 파라미터 λ_k를 업데이트하며, 덧셈식 업데이트와 ELBO의 기울도 같은 보조 입력을 포함한다.
학습 안정화를 위해 T refinement 단계를 펼쳐 end-to-end로 학습하고 반복 동안 ELBO 항의 가중합을 최소화한다.
위치와 다른 특징의 분리를 촉진하고 교환 가능한 객체에 대해 슬롯 대칭을 강제하기 위해 broadcast 디코더를 도입한다.

실험 결과

연구 질문

RQ1다중 슬롯, 감독 없는 모델이 해석 가능한 객체로 장면을 분할하면서 그들의 해석 가능한 특징을 학습할 수 있는가?
RQ2반복적 변분 추론이 가려짐, 다모달성, 순열 불변 객체 표현을 완전히 데이터 기반 방식으로 다룰 수 있게 하는가?
RQ3학습 분포를 넘어 더 많은 객체나 보지 못한 객체-특성 조합이 있는 장면에 모델이 얼마나 잘 일반화하는가?
RQ4아키텍처 선택(예: 공간 방송 디코더)과 입력 신호가 세그먼트 품질과 해석 분리에 어떤 영향을 미치는가?
RQ5학습된 객체 표현이 선형 매핑을 통한 객체 속성 예측과 같은 다운스트림 작업을 지원하는가?

주요 결과

모델	CLEVR6 ARI	M-dSprites ARI	M-dSprites bin ARI	Shapes ARI	Tetris ARI
IODINE	0.988±0.000	0.767±0.056	0.648±0.172	0.910±0.119	0.992±0.004
R-NEM	*	*	0.685±0.017	0.776±0.019	*
MONet	0.962±0.006	0.904±0.008	*	*	*

IODINE은 CLEVR6에서 거의 완벽한 인스턴스 세그멘테이션을 달성(ARI ~0.99)하고 Tetris에서 또한, Multi-dSprites에서 강력한 세그먼트를 보인다(ARI ~0.77).
MONet은 특정 설정에서 CLEVR6에서 ARI ~0.96, Multi-dSprites에서 ~0.90를 달성하여 경쟁력 있는 기준선을 제공한다.
객체 잠재 표현은 per-object 잠재에서 실측 요인(색상, 위치, 모양, 크기)을 선형적으로 예측 가능하게 한다.
객체가 각각의 슬롯으로 표현될 때 해리화가 향상되고, 표준 VAE는 여러 객체에 걸쳐 요인을 얽힌다.
모델은 학습에서 본 것보다 더 많은 슬롯과 더 많은 객체가 있는 장면으로 일반화하며, 많은 경우에 세그먼트 품질을 유지한다.
반복적 정제는 샘플링과 슬롯 상호작용으로 다중 모달 포스트eri어를 자발적으로 생성하여 모호성 하에서 다중 안정적 세그먼트를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.