QUICK REVIEW

[논문 리뷰] MONet: Unsupervised Scene Decomposition and Representation

Christopher Burgess, Löıc Matthey|arXiv (Cornell University)|2019. 01. 22.

Advanced Neural Network Applications참고 문헌 32인용 수 194

한 줄 요약

MONet은 재귀적 주의 네트워크와 공유 VAE를 사용하여 장면을 객체 유사 구성 요소로 분해하는 비지도 학습 모델로, 3D 및 2D 데이터셋에서 해리된 표현을 학습하고 가려짐(occlusion)을 처리합니다.

ABSTRACT

The ability to decompose scenes in terms of abstract building blocks is crucial for general intelligence. Where those basic building blocks share meaningful properties, interactions and other regularities across scenes, such decompositions can simplify reasoning and facilitate imagination of novel scenarios. In particular, representing perceptual observations in terms of entities should improve data efficiency and transfer performance on a wide range of tasks. Thus we need models capable of discovering useful decompositions of scenes by identifying units with such regularities and representing them in a common format. To address this problem, we have developed the Multi-Object Network (MONet). In this model, a VAE is trained end-to-end together with a recurrent attention network -- in a purely unsupervised manner -- to provide attention masks around, and reconstructions of, regions of images. We show that this model is capable of learning to decompose and represent challenging 3D scenes into semantically meaningful components, such as objects and background elements.

연구 동기 및 목표

장면 표현을 분해 가능한 객체로 학습하여 추론과 데이터 효율성을 향상시키려는 동기 부여.
공유 잠재 공간을 가진 다중 구성 요소로 장면을 세분화하는 비지도 아키텍처를 개발합니다.
레이블이 있는 세그먼트화 없이도 가림 및 다양한 개체 수를 처리할 수 있게 합니다.
더 많거나 더 적은 객체와 새로운 구성을 가진 장면으로 일반화합니다.
학습된 구성 요소가 해리된 해석 가능한 잠재 요인으로 이어지도록 합니다.

제안 방법

감독 신호 없이도 장면을 덮는 일련의 마스크를 생성하기 위해 재귀적 주의 네트워크를 사용합니다.
마스크된 영역 각각을 구성 요소 VAE로 모델링하여 마스킹된 픽셀만을 재구성하게 하고, 가려진 영역을 추론할 수 있게 합니다.
VAE 재구성, 슬롯별 잠재 변수에 대한 KL 정규화, decoded 마스크와 주의 마스크를 정렬하는 KL 항을 결합한 손실로 엔드투엔드로 학습합니다.
마스크가 전체 이미지에 걸치도록 범위 변수를 유지하여 K 슬롯의 합이 1이 되도록 합니다.
가변 개수의 슬롯(K)을 허용하고 테스트 시 더 많거나 더 적은 객체가 있는 장면으로 일반화합니다.
해상 disentanglement와 마스크 모델링을 각각 제어하는 하이퍼파라미터 beta와 gamma로 최적화합니다.

실험 결과

연구 질문

RQ1MONet이 비지도 학습 없이도 복잡한 장면을 의미론적으로 의미 있는 객체로 분해하는가?
RQ2학습된 마스크가 객체, 벽, 배경과 같은 의미 있는 장면 요소에 대응하는가?
RQ3MONet이 가림 및 다양한 개체 수를 처리하고 보지 못한 구성으로 일반화하는가?
RQ4슬롯 간 잠재 표현이 해석 가능한 특징으로 해리되는가?
RQ5구성적 처리 방식이 재구성 효율성과 정확도에 어떤 영향을 미치는가?

주요 결과

MONet은 비지도 방식으로 비자극적 3D 장면을 객체와 배경 요소로 분해하는 데 성공합니다.
테스트 시 추가 슬롯(예: 9 슬롯)으로 일반화되며, 학습 시보다 더 많은 객체가 있는 장면으로도 일반화됩니다.
슬롯 내 잠재 요인은 해리 가능하고 해석 가능한 특징으로 제어될 수 있습니다.
MONet은 가려진 객체와 매우 겹치는 모양의 장면에서도 장면의 분할 및 재구성에 성공합니다(Objects Room, Multi-dSprites, CLEVR 데이터셋).
이 접근법은 가려진 영역의 일관된 인페인팅을 제공하고 데이터 간 호환성을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.