QUICK REVIEW

[논문 리뷰] Rethinking Reprojection: Closing the Loop for Pose-aware ShapeReconstruction from a Single Image

Rui Zhu, Hamed Kiani Galoogahi|arXiv (Cornell University)|2017. 07. 15.

3D Shape Modeling and Analysis참고 문헌 23인용 수 40

한 줄 요약

이 논문은 비용이 많이 들고 오류가 발생하기 쉬운 3D 형상 및 자세 레이블 대신 저비용의 2D 실루엣 주석을 활용하여 단일 자연 이미지에서 자세 인식 가능한 3D 형상 재구성에 대한 새로운 프레임워크를 제안한다. 재구성된 실루엣과 진짜 이미지 실루엣 간의 차이를 최소화함으로써 예측된 3D 형상과 자세를 동시에 최적화하는 재투영 손실을 도입하여, 최신 기술 대비 자세 추정 및 3D 형상 재구성 성능을 크게 향상시킨다.

ABSTRACT

An emerging problem in computer vision is the reconstruction of 3D shape and pose of an object from a single image. Hitherto, the problem has been addressed through the application of canonical deep learning methods to regress from the image directly to the 3D shape and pose labels. These approaches, however, are problematic from two perspectives. First, they are minimizing the error between 3D shapes and pose labels - with little thought about the nature of this label error when reprojecting the shape back onto the image. Second, they rely on the onerous and ill-posed task of hand labeling natural images with respect to 3D shape and pose. In this paper we define the new task of pose-aware shape reconstruction from a single image, and we advocate that cheaper 2D annotations of objects silhouettes in natural images can be utilized. We design architectures of pose-aware shape reconstruction which re-project the predicted shape back on to the image using the predicted pose. Our evaluation on several object categories demonstrates the superiority of our method for predicting pose-aware 3D shapes from natural images.

연구 동기 및 목표

비용이 많이 들고 오류가 발생하기 쉬운 3D 주석에 의존하는 기존 3D 형상 및 자세 재구성 방법의 한계를 해결하기 위해.
3D CAD 레이블 대신 자연 이미지에서 저비용의 대규모 2D 실루엣 주석을 사용하여 딥 네트워크를 훈련시킬 수 있도록 하기 위해.
실제 자연 이미지에서 실루엣 주석을 사용하여 피니어 투닝함으로써 합성 이미지와 실제 이미지 간의 '렌더링 갭'을 줄이기 위해.
예측된 형상과 관측된 실루엣 간의 일致성을 강제하는 재투영 기반 손실을 사용하여 자세와 3D 형상 예측을 동시에 최적화하기 위해.
3D 진짜값이 필요 없이 실제 이미지에서 자세 추정 및 3D 형상 재구성 성능을 향상시키기 위해.

제안 방법

합성 렌더링된 이미지와 2D 객체 실루엣 주석이 부여된 실제 자연 이미지를 결합한 새로운 훈련 파라다임을 제안한다.
예측된 3D 형상(예측된 자세 하에서)을 재투영한 결과와 진짜 이미지 실루엣 간의 차이를 측정하는 새로운 재투영 손실을 도입한다.
p-TL 및 p-3D-VAE-GAN과 같은 사전 훈련된 네트워크를 합성 데이터와 실재 데이터를 모두 사용하여 실루엣 주석을 통한 지도 하에 엔드 투 엔드로 피니어 투닝한다.
재투영 손실을 사용하여 훈련 중에 3D 형상(바이트 볼륨 형태로)과 6-DOF 자세 파rameter를 동시에 최적화한다.
형상 유효성을 유지하고 열화를 방지하기 위해 피니어 투닝 중에 고정된 생성자 네트워크를 사용한다.
최적화의 안정성을 높이기 위해 렌더링된 이미지(지침용)와 실제 이미지(재투영 손실용)를 혼합한 배치를 사용한다.

실험 결과

연구 질문

RQ13D 진짜값이 없이도 자연 이미지의 2D 실루엣 주석을 효과적으로 활용하여 3D 형상 및 자세 재구성 네트워크를 훈련시킬 수 있는가?
RQ2예측된 실루엣과 진짜 실루엣 간의 재투영 오차를 최소화하는 것이 기존의 3D 재구성 손실보다 더 나은 3D 형상 및 자세 추정을 이끌어내는가?
RQ3재투영 손실을 통한 자세와 형상의 동시 최적화가 독립적 훈련 대비 실제 이미지에서 성능을 향상시키는가?
RQ4실루엣 주석을 사용하여 실제 이미지에서 피니어 투닝하면 3D 재구성에서 '렌더링 갭'을 어느 정도 줄일 수 있는가?
RQ5제안된 방법이 자세 추정 및 정렬된 형상 재구성 성능을 동시에 향상시키는가?

주요 결과

p-TL를 사용할 때 항공기 카테고리에서 2D AP가 0.589에서 0.704로 20.5% 상대적 향상되어 더 나은 실루엣 매칭을 나타낸다.
의자 카테고리에서는 2D AP가 0.844에서 0.849로, 3D AP가 0.531에서 0.552로 증가하여 두 지표에서 일관된 향상이 나타난다.
p-TL에서 항공기의 경우 자세 정확도(Acc π/6)가 0.67에서 0.68로 향상되었고, 의자에서는 0.76에서 0.80으로 향상되어 더 나은 자세 추정을 의미한다.
항공기의 경우 중앙값 자세 오차가 23.0°에서 17.3°로 감소하였고, 의자에서는 8.2°에서 8.3°로 감소하여 자세 오차가 감소함을 보여준다.
항공기의 경우 번역 오차 중앙값이 프레임 크기 대비 0.092에서 0.077로 감소하여 더 나은 정렬 위치 추정을 나타낸다.
p-3D-VAE-GAN를 사용할 때 항공기에서 3D AP가 0.183에서 0.249로 향상되어 더 나은 정렬된 형상 재구성 성능을 의미한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.