QUICK REVIEW

[논문 리뷰] SfM-Net: Learning of Structure and Motion from Video

Sudheendra Vijayanarasimhan, Susanna Ricco|arXiv (Cornell University)|2017. 04. 25.

Advanced Vision and Imaging참고 문헌 27인용 수 353

한 줄 요약

SfM-Net은 비디오로부터 깊이, 카메라 모션, 그리고 객체의 모션을 함께 학습하는 기하학 인식 신경망으로, 깊이/자기 모션 감독을 선택적으로 활용한 자기 감독 구조-from-motion을 가능하게 한다.

ABSTRACT

We propose SfM-Net, a geometry-aware neural network for motion estimation in videos that decomposes frame-to-frame pixel motion in terms of scene and object depth, camera motion and 3D object rotations and translations. Given a sequence of frames, SfM-Net predicts depth, segmentation, camera and rigid object motions, converts those into a dense frame-to-frame motion field (optical flow), differentiably warps frames in time to match pixels and back-propagates. The model can be trained with various degrees of supervision: 1) self-supervised by the re-projection photometric error (completely unsupervised), 2) supervised by ego-motion (camera motion), or 3) supervised by depth (e.g., as provided by RGBD sensors). SfM-Net extracts meaningful depth estimates and successfully estimates frame-to-frame camera rotations and translations. It often successfully segments the moving objects in the scene, even though such supervision is never provided.

연구 동기 및 목표

프레임 간 모션을 깊이, 카메라 모션, 강체 객체 모션으로 분해하는 신경망 모델을 개발한다.
미분 가능 렌더링/워핑과 광도 일관성을 이용하여 단안 비디오로부터 엔드-투-엔드 학습을 가능하게 한다.
완전한 비감독에서 깊이 또는 자모션 감독 학습에 이르기까지 여러 감독 방식들을 지원한다.
KITTI 및 MoSeg와 같은 실제 데이터셋에서 깊이 추정, 운동 분할, 카메라 모션 회복을 시연한다.

제안 방법

합성곱/역합성 네트워크를 사용하여 단일 프레임으로부터 프레임당 깊이를 예측한다.
동적 객체를 위한 K개의 모션 마스크와 대응하는 3D 모션, 그리고 전역 카메라 모션을 예측한다.
깊이로부터 3D 포인트 클라우드를 구성하고 객체 및 카메라 모션으로 변환한 뒤 2D로 투영하여 밀집 광학 흐름을 형성한다.
미분 가능 역방향 워핑으로 다음 프레임을 워핑하고 광도적 일관성(자체 감독)을 최적화한다.
전방-후방 깊이 일관성을 제시하고, 가능할 때 깊이/카메라/객체 감독을 적용한다(예: Kinect).
K=3 모션 마스크를 사용하며, 마스크는 부분적/중첩 객체 모션이 가능하도록 시그모이드 활성화로 생성된다.

실험 결과

연구 질문

RQ1단안 비디오에서 신경망이 깊이, 카메라 모션, 객체 모션을 함께 회복할 수 있는가?
RQ2움직이는 객체를 명시적으로 모델링하는 것이 제약 없는 비디오에서 자가 감독 깊이 및 모션 학습에 어떤 영향을 미치는가?
RQ3실제 시퀀스에서 어떤 감독 수준(비감독, 깊이 감독, 자모션 감독)이 깊이 및 모션 추정 성능을 향상시키는가?

주요 결과

KITTI와 MoSeg에서의 자기 감독 학습은 완전한 감독 없이 깊이와 모션 추정을 보여준다.
객체 모션 모델링이 없으면 깊이 성능이 저하되고, 모션 마스크를 포함하면 KITTI 2015에서 결과가 개선된다(더 많은 움직이는 객체).
정성적 결과는 모션 마스크가 종종 움직이는 객체와 정렬되고 모션 필드의 일부를 설명하지만 작은 객체나 먼 객체는 놓치는 경우가 있다.
RGB-D 감독(실제 깊이 또는 자세) 은 KITTI RGB-D SLAM 데이터에서 카메라 모션 추정과 깊이 품질을 향상시킨다.
모델은 프레임 간 자모션과 3D 객체 모션을 회복하여 일관된 장면 흐름(scene flow)과 광학 흐름 필드를 생성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.