[논문 리뷰] Neural Expectation Maximization
신경망 기대 최대화(N-EM)는 이미지에서 여러 객체를 비지도 학습 가능하고 미분 가능 한 EM 프레임워크로 클러스터링하고 표현하는 방법을 학습하며, 순차 데이터에 대해 RNN-EM으로 확장됩니다.
Many real world tasks such as reasoning and physical interaction require identification and manipulation of conceptual entities. A first step towards solving these tasks is the automated discovery of distributed symbol-like representations. In this paper, we explicitly formalize this problem as inference in a spatial mixture model where each component is parametrized by a neural network. Based on the Expectation Maximization framework we then derive a differentiable clustering method that simultaneously learns how to group and represent individual entities. We evaluate our method on the (sequential) perceptual grouping task and find that it is able to accurately recover the constituent objects. We demonstrate that the learned representations are useful for next-step prediction.
연구 동기 및 목표
- 결합 문제를 해결하기 위해 여러 객체에 대해 분리되고 분산된 표현을 학습하도록 동기를 부여합니다.
- 공간 혼합 모델에서 신경망 매개변수화된 구성요소로 객체 표현을 형식화합니다.
- 픽셀을 객체로 클러스터링하고 객체 특유의 표현을 학습하기 위한 미분 가능한 EM 절차를 도출합니다.
- 다음 단계 예측과 향상된 그룹화를 위해 프레임워크를 순차 데이터로 확장합니다.
- 레이블링된 분할 없이 비지도 학습을 제공하고 합성 데이터 세트에서 평가합니다.
제안 방법
- 이미지를 K- 성분 공간 혼합으로 모델링하고 구성요소별 매개변수 theta_k를 미분 가능한 f_phi를 통해 픽셀 우도 psi_i,k로 매핑합니다.
- 현재 psi 및 x를 기반으로 소프트 픽셀 할당 gamma_i,k를 얻기 위해 E-단계를 계산합니다.
- 미분 가능한 f_phi를 사용하여 Q에 대해 그래디언트 상승으로 theta_k를 업데이트하는 M-단계를 수행합니다 (Eq. 4).
- EM 반복을 전개하여 순전파를 통한 역전파로 학습되는 엔드 투 엔드 미분 가능한 클러스터링 절차(N-EM) 생성.
- Sequential 데이터를 다루고 그룹화를 개선하기 위해 M-단계를 학습된 순환 신경망으로 대체하여 RNN-EM을 도입합니다.
- 감마로 가중된 클러스터 내 재구성과 비할당 픽셀을 제약하기 위한 클러스터 간 KL 페널티의 두 항 손실로 학습합니다.
실험 결과
연구 질문
- RQ1비지도 신경망이 공간 혼합 모델 내에서 여러 객체를 분리되고 해방된 구성요소로 발견하고 표현할 수 있는가?
- RQ2미분 가능한 EM이 다음 단계 예측을 위한 유용한 객체 중심 표현을 얻는 엔드-투-엔드 학습을 가능하게 하는가?
- RQ3이 방법이 순차 데이터로 확장되고 시간이 지남에 따라 견고한 지각적 그룹화를 제공하는 정도는 어느 수준인가?
주요 결과
- N-EM과 RNN-EM은 객체가 분리될 때 정적 그룹화 작업에서 개별 모양을 복원할 수 있습니다.
- 특히 가려짐(occlusion)하에서 RNN-EM이 일반적으로 더 강한 그룹화 성능(AMI)을 나타냅니다.
- Flying shapes에서 더 많은 객체가 있어도 AMI 점수가 여전히 높고 보이지 않는 시퀀스 길이와 객체 수에 대해 좋은 일반화성을 보입니다.
- 다음 단계 예측은 다객체 표현의 이점이 있으며, 객체가 있을 때 RNN-EM이 단일 구성요소 순환 자동인코더보다 예측 오차가 더 낮습니다.
- Flying MNIST에서 RNN-EM은 두 자리 숫자 테스트에서 AMI를 최대 0.917±0.005까지 달성하고 재훈련 없이도 세 자리 숫자에 일반화합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.