QUICK REVIEW

[논문 리뷰] Simple Unsupervised Object-Centric Learning for Complex and Naturalistic Videos

Gautam Singh, Yifu Wu|arXiv (Cornell University)|2022. 05. 27.

Advanced Image and Video Retrieval Techniques인용 수 20

한 줄 요약

STEVE는 비디오에 확장된 최소한의 트랜스포머 기반 슬롯 디코더(SLATE)를 도입하여 감독 없이도 복잡하고 자연주의적인 데이터셋에서 강력한 비지도 객체 중심 분할 및 추적을 달성한다.

ABSTRACT

Unsupervised object-centric learning aims to represent the modular, compositional, and causal structure of a scene as a set of object representations and thereby promises to resolve many critical limitations of traditional single-vector representations such as poor systematic generalization. Although there have been many remarkable advances in recent years, one of the most critical problems in this direction has been that previous methods work only with simple and synthetic scenes but not with complex and naturalistic images or videos. In this paper, we propose STEVE, an unsupervised model for object-centric learning in videos. Our proposed model makes a significant advancement by demonstrating its effectiveness on various complex and naturalistic videos unprecedented in this line of research. Interestingly, this is achieved by neither adding complexity to the model architecture nor introducing a new objective or weak supervision. Rather, it is achieved by a surprisingly simple architecture that uses a transformer-based image decoder conditioned on slots and the learning objective is simply to reconstruct the observation. Our experiment results on various complex and naturalistic videos show significant improvements compared to the previous state-of-the-art.

연구 동기 및 목표

복잡한 자연주의적 장면과 비디오에 일반화되는 비지도 객체 중심 표현을 동기부여한다.
감독 없이도 비디오에서 객체 등장(object emergence)를 가능하게 하는 간단한 아키텍처를 입증한다.
시계열 모델에서 트랜스포머 기반 슬롯 디코더(SLATE)의 효과를 평가한다.
다양하고 도전적인 데이터셋에서 STEVE를 평가하고 강건성 및 일반화를 분석한다.

제안 방법

프레임마다 특징을 추출하기 위해 CNN 기반 이미지 인코더를 사용한다.
시간에 걸쳐 순환 슬롯 인코더로 업데이트되는 프레임당 N개의 슬롯을 유지한다.
슬롯과 이산 VAE 토큰에 조건화된 슬롯-트랜스포머 디코더로 프레임을 디코딩한다.
토큰 예측의 교차 엔트로피와 dVAE 이미지 재구성 손실을 결합한 재구성 목표로 훈련한다.
각 비디오 프레임을 dVAE의 이산 토큰 시퀀스로 간주하고 슬롯을 주어진 상태에서 트랜스포머가 자동회귀적으로 이를 예측하도록 훈련한다.

실험 결과

연구 질문

RQ1슬롯-트랜스포머 디코더를 아키텍처의 복잡성을 늘리지 않고도 효과적으로 시계열 비디오 데이터에 확장할 수 있는가?
RQ2STEVE가 합성 데이터셋을 넘어 복잡하고 자연주의적인 비디오에서 강력한 비지도 객체 중심 분할 및 추적을 달성하는가?
RQ3시간 학습이 객체 중심 비디오 표현을 위한 강력한 트랜스포머 기반 디코더와 어떻게 상호작용하는가?
RQ4데이터 복잡성(텍스처, 텍스처+움직임)이 새로운 객체 및 텍스처에 대한 분할 및 일반화에 미치는 영향은 무엇인가?

주요 결과

STEVE는 다섯 개의 텍스처 데이터셋에서 기저 방법 대비 FG-ARI 수준으로 전경 이미지 분할을 크게 향상시킨다.
STEVE는 여러 데이터셋에서 비지시 비디오 분할(Video FG-ARI)을 더 잘 달성하며 특히 텍스처가 있는 콘텐츠에서 우수하다.
SLATE와 비교할 때 STEVE는 비디오에서 정렬된 슬롯 표현과 일관된 추적을 제공하며, SLATE는 일부 복잡한 비디오에서 실패한다.
STEVE는 카메라 움직임과 고정 객체에 대해 강건하며, 많은 경우 분포 밖의 객체 수와 보이지 않는 텍스처에 일반화한다.
자연 데이터셋(Traffic, Aquarium)에서 STEVE가 기준치를 크게 능가하여 실제 세계 장면에서 강력한 성능을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.