[논문 리뷰] BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled Images
BlockGAN은 라벨링되지 않은 2D 이미지로부터 직접 3D 객체 인식이 가능한 장면 표현을 학습하고, 3D 객체 특징을 3D 장면으로 생성·구성하여 제어 가능한 물체 자세와 정체성 조작을 현실적인 조명과 그림자와 함께 가능하게 한다.
We present BlockGAN, an image generative model that learns object-aware 3D scene representations directly from unlabelled 2D images. Current work on scene representation learning either ignores scene background or treats the whole scene as one object. Meanwhile, work that considers scene compositionality treats scene objects only as image patches or 2D layers with alpha maps. Inspired by the computer graphics pipeline, we design BlockGAN to learn to first generate 3D features of background and foreground objects, then combine them into 3D features for the wholes cene, and finally render them into realistic images. This allows BlockGAN to reason over occlusion and interaction between objects' appearance, such as shadow and lighting, and provides control over each object's 3D pose and identity, while maintaining image realism. BlockGAN is trained end-to-end, using only unlabelled single images, without the need for 3D geometry, pose labels, object masks, or multiple views of the same scene. Our experiments show that using explicit 3D features to represent objects allows BlockGAN to learn disentangled representations both in terms of objects (foreground and background) and their properties (pose and identity).
연구 동기 및 목표
- 라벨링되지 않은 2D 이미지로부터 3D 구성성 및 객체 간 상호 작용을 존중하는 장면 표현 학습의 필요성을 제시한다.
- 장면을 배경과 다수의 전경 객체로 해리하고 포즈와 정체성을 제어 가능하게 한다.
- 테스트 시 객체 수, 포즈 및 외관을 조작할 수 있게 하되 현실성을 유지한다.
제안 방법
- 노이즈 벡터와 객체 포즈 매개변수로 각 객체의 3D 특징을 생성한다.
- 각 객체의 3D 특징을 3D 유사 변환으로 변형하고 이를 합쳐 하나의 unified 3D 장면 특징으로 구성한다.
- 미분 가능하고 학습 기반의 원근 투영 모듈을 통해 3D 장면 특징을 2D 이미지로 렌더링한다.
- 장면 구성기를 사용하여 객체 특징을 원소별 최대값으로 결합해 장면 특징을 형성한다.
- 라벨링되지 않은 이미지에 대해 적대적 손실로 엔드투엔드 학습하며, 복잡한 배경을 위한 스타일 구분기를 추가로 활용한다.
실험 결과
연구 질문
- RQ1비지도 GAN이 2D 이미지로부터 직접적으로 해리된, 객체 인식 가능한 3D 표현을 학습할 수 있는가?
- RQ2명시적 3D 객체 표현이 개별 객체의 자세와 정체성 조작을 가능한가?
- RQ3모델이 어지러운 배경을 다루고 테스트 시 객체를 추가/제거하는 것을 지원하는가?
- RQ4BlockGAN은 이미지 충실도와 객체 해리 측면에서 2D 기반 및 순수 3D 인식 기반의 기준선과 어떤 차이가 있는가?
주요 결과
- BlockGAN은 기준 GAN보다 시각적 충실도(KID 점수)에서 경쟁력 있거나 더 나은 성능을 보이면서 명시적 객체 수준 제어를 제공한다.
- 모델은 배경과 전경 간, 여러 전경 객체 간의 해리를 수행하여 각 객체의 자세와 정체성 조작을 지원한다.
- 테스트 시 사용자는 장면에 객체를 추가, 제거 또는 기하학적으로 수정할 수 있으며, 현실적인 그림자와 가려짐이 포함된다.
- BlockGAN은 학습 시 더 적은 객체로도 테스트 시 전경 객체를 더 추가하는 것을 지원하여 실제 구성적 이해를 보여준다.
- LR-GAN과 비교하여 BlockGAN은 명시적 객체 수준 제어를 제공하고 배경과 전경을 함께 변화시킬 때 얽힌 변화가 발생하지 않는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.