[논문 리뷰] Weakly-supervised Disentangling with Recurrent Transformations for 3D View Synthesis
단일 이미지에서 본 적이 없는 3D 객체의 회전 뷰를 합성하는 재귀적 컨볼루션 인코더-디코더를 제시하고, 신원과 자세의 약한 감독으로의 분리.
An important problem for both graphics and vision is to synthesize novel views of a 3D object from a single image. This is particularly challenging due to the partial observability inherent in projecting a 3D object onto the image space, and the ill-posedness of inferring object shape and pose. However, we can train a neural network to address the problem if we restrict our attention to specific object categories (in our case faces and chairs) for which we can gather ample training data. In this paper, we propose a novel recurrent convolutional encoder-decoder network that is trained end-to-end on the task of rendering rotated objects starting from a single image. The recurrent structure allows our model to capture long-term dependencies along a sequence of transformations. We demonstrate the quality of its predictions for human faces on the Multi-PIE dataset and for a dataset of 3D chair models, and also show its ability to disentangle latent factors of variation (e.g., identity and pose) without using full supervision.
연구 동기 및 목표
- 얼굴과 의자와 같은 물체 범주에 대해 단일 이미지에서 3D 뷰 합성을 가능하게 한다.
- 자세 매니폴드를 탐색하기 위해 순환 아키텍처를 통해 장기 자세 변환을 학습한다.
- 회전을 예측하는 동안 명시적 감독 없이 신원(정체성)과 자세 요소를 분리한다.
- 새로운 물체와 크로스 뷰 인식에 대한 적용 가능성을 보여준다.
- 신원과 자세 간 보간을 조사하여 새로운 물체 인스턴스를 생성한다.
제안 방법
- 입력 이미지로부터 신원 및 자세 특성을 추출하기 위해 심층 컨볼루션 인코더를 사용한다.
- 로컬 자세 변화를 모델링하기 위해 자세 유닛과 동작 입력을 도입하여 재귀적 자세 예측기를 형성한다.
- 고정된 신원 유닛과 변환된 자세 유닛을 가진 재귀적 컨볼루션 인코더-디코더를 적용하여 회전된 뷰를 생성한다.
- 매 시간 단계마다 자세 매니폴드를 따라 이동하기 위한 제어 신호를 제공한다.
- 회전 단계의 시퀀스 길이를 점차 증가시키는 커리큘럼 학습으로 학습한다.
- 모든 단계에서 픽셀 수준 재구성 손실을 최적화하여 일관된 장기 예측을 촉진한다.
실험 결과
연구 질문
- RQ1재귀적 컨볼루션 인코더-디코더가 3D 물체를 회전시키고 단일 입력 이미지로 새로운 뷰를 렌더링하는 것을 학습할 수 있는가?
- RQ2커리큘럼 학습이 명시적 라벨 없이 장기 자세 궤적 예측과 신원과 자세의 분리를 돕는가?
- RQ3미확인 물체 인스턴스(얼굴, 의자)에서의 성능과 크로스뷰 인식에서의 성능은 어느 정도인가?
- RQ4현실감을 유지하면서 신원과 자세를 보간하여 새로운 물체를 생성할 수 있는가?
주요 결과
- 모델은 여러 회전 단계에 걸쳐 보지 않은 얼굴과 의자에 대해 고품질의 매끄러운 렌더링을 생성한다.
- 커리큘럼 학습은 이미지 합성 품질과 자세 불변 인식 성능을 모두 향상시킨다.
- 분리된 신원 및 자세 표현은 클래스 라벨 없이 크로스 뷰 인식이 가능하게 하며, 신원 유닛은 강한 시야 불변 신호를 제공한다.
- 의자 보간은 회전된 뷰를 보존하면서 매끄러운 스타일 변화 를 보여준다.
- 이 방법은 CNN에 비해 경쟁력 있는 크로스뷰 인식 성능을 달성하고, 시야 차이가 큰 경우 이미지 기반 베이스라인을 능가한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.