QUICK REVIEW

[논문 리뷰] Complete 3D Scene Parsing from Single RGBD Image.

Chuhang Zou, Zhizhong Li|arXiv (Cornell University)|2017. 10. 25.

Advanced Image and Video Retrieval Techniques인용 수 7

한 줄 요약

이 논문은 CNN 기반의 형태 검색과 지지 추론을 사용하여 영역 제안에 세부 CAD 모델을 검색하고 정렬하여 단일 RGBD 이미지에서 완전한 3D 시점 해석을 생성하는 방법을 제안한다. 이는 모든 물체에 대해 반자동으로 레이블이 부여된 새로운 애너테이션을 가진 NYUv2 데이터셋에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Inferring the location, shape, and class of each object in a single image is an important task in computer vision. In this paper, we aim to predict the full 3D parse of both visible and occluded portions of the scene from one RGBD image. We parse the scene by modeling objects as detailed CAD models with class labels and layouts as 3D planes. Such an interpretation is useful for visual reasoning and robotics, but difficult to produce due to the high degree of occlusion and the diversity of object classes. We follow the recent approaches that retrieve shape candidates for each RGBD region proposal, transfer and align associated 3D models to compose a scene that is consistent with observations. We propose to use support inference to aid interpretation and propose a retrieval scheme that uses convolutional neural networks (CNNs) to classify regions and retrieve objects with similar shapes. We demonstrate the performance of our method compared with the state-of-the-art on our new NYUd v2 dataset annotations which are semi-automatically labelled with detailed 3D shapes for all the objects.

연구 동기 및 목표

단일 RGBD 이미지에서 보이는 부분과 가림된 부분을 포함한 완전한 3D 시점 해석을 가능하게 한다.
더 풍부한 시점 이해를 위해 클래스 레이블과 레이아웃을 3D 평면으로 가진 세부적인 CAD 모델로 객체를 모델링한다.
3D 시점 해석에서 높은 가림과 다양한 객체 클래스로 인한 과제를 해결한다.
지지 추론과 형태 검색을 활용하여 시점 일致성과 정확도를 향상시킨다.

제안 방법

RGBD 이미지에서 영역 제안을 사용하여 잠재적인 객체 위치를 식별한다.
컨volutional 신경망(CNN)을 적용하여 영역를 분류하고 유사한 기하학적 특성을 가진 형태 후보를 검색한다.
지지 추론을 사용하여 학습 데이터에서 관련 형태를 활용하여 해석 과정을 안내한다.
검색된 3D CAD 모델을 관측된 시점 기하학과 제약 조건에 맞게 정렬하고 변환한다.
RGBD 관측치와의 일致성을 확보하기 위해 객체 클래스, 형태, 공간 레이아웃을 동시에 최적화한다.
평가를 위해 세부적인 3D 형태를 가진 반자동으로 애너테이션 처리된 새로운 NYUv2 데이터셋을 도입한다.

실험 결과

연구 질문

RQ1단일 RGBD 이미지를 사용하여 보이는 부분과 가려진 부분을 모두 향상시킬 수 있는 3D 시점 해석 방법은 무엇인가?
RQ2CNN 기반의 형태 검색이 3D 시점 일치성과 정확도 향상에 어떤 역할을 하는가?
RQ3지지 추론은 복잡하고 가려진 영역에서 3D CAD 모델의 선택과 정렬을 효과적으로 안내할 수 있는가?
RQ4간단한 기하 형태 원소와 비교해 세부 CAD 모델을 통합할 경우 시점 해석에서 어떤 차이가 있는가?
RQ5풍부한 3D 애너테이션을 가진 데이터셋에서 제안된 방법은 최신 기술 수준의 접근 방식을 얼마나 뛰어넘는가?

주요 결과

제안된 방법은 세부적인 3D 형태를 가진 새로 애너테이션 처리된 NYUv2 데이터셋에서 최신 기술 수준의 성능을 달성한다.
CNN 기반의 형태 검색은 객체 모델 선택 및 정렬의 정확도를 크게 향상시킨다.
지지 추론은 특히 높은 가림 영역에서 시점 해석의 강인성을 향상시킨다.
세부 CAD 모델의 사용은 더 정확하고 의미적으로 일관된 3D 시점 해석을 이끈다.
반자동으로 애너테이션 처리된 NYUv2 데이터셋은 향후 3D 시점 해석 연구를 위한 유용한 기준이 된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.