[논문 리뷰] Relational Neural Expectation Maximization: Unsupervised Discovery of Objects and their Interactions
R-NEM은 원시 영상으로부터 비지도 객체 중심 표현을 학습하고 관계 유도 편향(relational inductive bias)을 통해 객체 수가 다르고 가려짐이 있는 장면으로의 외삽을 가능하게 하며, 객체 간 상호작용을 모델합니다. 이는 N-EM을 기반으로 하며 물리적 역학을 시뮬레이션하기 위한 한 쌍의 상호작용 모듈을 추가합니다.
Common-sense physical reasoning is an essential ingredient for any intelligent agent operating in the real-world. For example, it can be used to simulate the environment, or to infer the state of parts of the world that are currently unobserved. In order to match real-world conditions this causal knowledge must be learned without access to supervised data. To address this problem we present a novel method that learns to discover objects and model their physical interactions from raw visual images in a purely \emph{unsupervised} fashion. It incorporates prior knowledge about the compositional nature of human perception to factor interactions between object-pairs and learn efficiently. On videos of bouncing balls we show the superior modelling capabilities of our method compared to other unsupervised neural approaches that do not incorporate such prior knowledge. We demonstrate its ability to handle occlusion and show that it can extrapolate learned knowledge to scenes with different numbers of objects.
연구 동기 및 목표
- 합성 객체 표현을 사용하여 시각적 장면에서 객체를 비지도적으로 발견하는 것을 가능하게 한다.
- 물리적 동역학을 포착하기 위해 객체 간 상호작용을 모델링한다.
- 다양한 객체 수 및 가림이 있는 장면에 대해 견고한 일반화를 달성한다.
- 혼잡한 환경에서 객체 운동의 예측 정확도와 단기 시뮬레이션을 입증한다.
제안 방법
- 관계적 상호작용 함수를 사용하여 Neural Expectation Maximization (N-EM)을 확장해 R-NEM를 형성한다.
- 각 객체를 잠재 변수 theta_k로 표현하고 신경망 f_phi를 통해 픽셀 생성 모델링한다.
- 픽셀을 객체 구성요소에 할당하는 E-단계와 객체 표현을 업데이트하는 M-단계를 포함하는 일반화된 EM 프레임워크를 사용한다.
- 학습된 임베딩과 어텐션 계수를 통해 쌍별 효과를 계산하는 Upsilon^R-NEM 상호작용 함수를 도입한다.
- 객체 표현과 동역학 학습을 안내하기 위해 노이즈 제거/다음 단계 예측을 갖춘 인코더-디코더 아키텍처를 사용한다.
- 식 (3)과 같은 intra-cluster 및 inter-cluster 항을 결합한 손실을 최적화하기 위해 시간을 따라 역전파하여 엔드 투 엔드로 학습한다.
실험 결과
연구 질문
- RQ1비지도 학습 없이 원시 시각 입력으로부터 객체 중심 표현을 학습할 수 있는가?
- RQ2관계 메커니즘이 객체 간 동역학 학습을 가능하게 하여 미래 프레임을 예측할 수 있는가?
- RQ3객체 중심 표현이 학습 시 본 것보다 더 많거나 적은 객체가 있는 장면으로 일반화되는가?
- RQ4모델이 가림에 강인하고 동적 장면에서 객체의 지속성을 보일 수 있는가?
- RQ5객체에 대한 어텐션이 학습 및 물리적 상호작용의 외삽에 어떤 영향을 주는가?
주요 결과
- R-NEM은 튀는 공 시퀀스에서 기저 모델(RNN, LSTM, RNN-EM)에 비해 예측 및 관계적 BCE 손실이 더 낮다.
- R-NEM은 약 0.8의 ARI 점수를 얻어 4개 공 장면에서 대부분의 공이 서로 다른 구성요소로 모델링됨을 시사한다.
- 모델은 6–8개의 공 장면으로의 외삽이 경쟁자들보다 더 잘되며, 보지 않은 객체 수에 대한 일반화가 개선된다.
- R-NEM은 동역학을 정확히 시뮬레이션하고 단계 간 객체 모양과 위치를 보존하여 RNN 기반 접근법을 능가한다.
- 가림 시나리오(커튼 실험)는 R-NEM이 객체 상태를 유지하고 재등장을 예측함으로써 객체 영속성을 보여준다.
- 어텐션 메커니즘이 충돌 이벤트와 일치하여 상호작용 중 컨텍스트-객체 영향력을 활성화한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.