QUICK REVIEW

[논문 리뷰] Every Pixel Counts ++: Joint Learning of Geometry and Motion with 3D Holistic Understanding

Chenxu Luo, Zhenheng Yang|arXiv (Cornell University)|2018. 10. 14.

Advanced Vision and Imaging참고 문헌 84인용 수 29

한 줄 요약

이 논문은 KITTI, Make3D, 그리고 MPI Sintel 데이터셋에서 깊이 추정, 광학 흐름, 오odomentry, 움직이는 객체 세그멘테이션, 스냅샷 흐름 등에서 최신 기술 수준의 성능을 달성하기 위해 모든 픽셀(움직이는 객체 및 가림 영역 포함)에 대해 기하 일관성을 강제하는 비지도 학습 프레임워크인 EPC++를 제안한다. EPC++는 통합된 3차원 운동 해석기와 적응형 일관성 손실을 통해 깊이, 운동, 흐름 예측을 통합함으로써, 깊이 추정, 광학 흐름, 오odomentry, 움직이는 객체 세그멘테이션, 스냅샷 흐름 분야에서 비지도 학습 기반으로 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Learning to estimate 3D geometry in a single frame and optical flow from consecutive frames by watching unlabeled videos via deep convolutional network has made significant progress recently. Current state-of-the-art (SoTA) methods treat the two tasks independently. One typical assumption of the existing depth estimation methods is that the scenes contain no independent moving objects. while object moving could be easily modeled using optical flow. In this paper, we propose to address the two tasks as a whole, i.e. to jointly understand per-pixel 3D geometry and motion. This eliminates the need of static scene assumption and enforces the inherent geometrical consistency during the learning process, yielding significantly improved results for both tasks. We call our method as "Every Pixel Counts++" or "EPC++". Specifically, during training, given two consecutive frames from a video, we adopt three parallel networks to predict the camera motion (MotionNet), dense depth map (DepthNet), and per-pixel optical flow between two frames (OptFlowNet) respectively. The three types of information are fed into a holistic 3D motion parser (HMP), and per-pixel 3D motion of both rigid background and moving objects are disentangled and recovered. Comprehensive experiments were conducted on datasets with different scenes, including driving scenario (KITTI 2012 and KITTI 2015 datasets), mixed outdoor/indoor scenes (Make3D) and synthetic animation (MPI Sintel dataset). Performance on the five tasks of depth estimation, optical flow estimation, odometry, moving object segmentation and scene flow estimation shows that our approach outperforms other SoTA methods. Code will be available at: https://github.com/chenxuluo/EPC.

연구 동기 및 목표

움직이는 객체가 있는 비정형 환경에서 기존 방법이 깊이 추정과 광학 흐름을 독립적인 작업으로 간주하는 한계를 해결하기 위해.
비지도 학습에서 흔히 사용되는 정적 환경 가정을 제거하기 위해 3차원 기하학과 운동을 함께 모델링함으로써.
통합된 3차원 운동 해석기를 통해 깊이, 운동, 흐름 예측 간 기하 일관성을 강제함으로써 일반화 능력과 강인성을 향상시키기 위해.
다중 작업 일관성을 활용하여 명시적 지도 학습 없이도 정확한 움직이는 객체 세그멘테이션과 스냅샷 흐름 추정을 가능하게 하기 위해.

제안 방법

프레임워크는 세 개의 병렬 네트워크를 사용한다: 자가 운동을 위한 MotionNet, 밀도 있는 깊이 맵을 위한 DepthNet, 연속 프레임 간 광학 흐름을 위한 OptFlowNet.
통합된 3차원 운동 해석기(HMP)는 픽셀 단위의 3차원 운동을 강성 배경, 비정형 물체 운동, 가림 영역으로 분리한다.
가시성과 운동의 강성에 따라 깊이 및 흐름에 대한 지도 신호의 가중치를 동적으로 조정하는 적응형 일관성 손실을 도입하여 일반화 능력을 향상시킨다.
학습 전략은 작업 간 손실을 적절히 균형 조절하여 기하학적 및 운동 예측의 수렴과 성능을 향상시킨다.
시각 합성은 가시 프레임과 타겟 프레임 간의 광학 일관성을 활용하여 깊이 및 흐름을 지도로 사용하는 가변성 있는 왜곡을 통해 수행된다.
가시성 맵(M_d > 3)을 임계값 처리하여 이진 세그멘테이션 마스크를 생성함으로써 정확한 움직이는 객체 탐지가 가능해진다.

실험 결과

연구 질문

RQ1깊이, 운동, 광학 흐름의 공동 학습이 독립적 또는 이중 작업 학습 대비 모든 세 가지 작업의 성능 향상에 기여하는가?
RQ2움직이는 객체와 가림 영역이 있는 환경에서 깊이, 운동, 광학 흐름 간 기하 일관성을 어떻게 강제할 수 있는가?
RQ3특정 영역(예: 비가림 영역에서는 흐름, 가림 영역에서는 깊이)에서의 강점을 활용하는 적응형 일관성 손실이 균일한 작업 간 일관성보다 우수한 성능을 낼 수 있는가?
RQ4단안 지도 학습이 깊이 및 운동 추정에서 스테레오 기반 방법과 비교해 유사한 성능을 달성할 수 있는가?
RQ5공동 프레임워크가 지도 데이터 없이도 정확한 움직이는 객체 세그멘테이션과 스냅샷 흐름 추정을 가능하게 할 수 있는가?

주요 결과

EPC++는 KITTI 2012, KITTI 2015, Make3D, MPI Sintel 데이터셋에서 깊이 추정, 광학 흐름, 오odomentry, 움직이는 객체 세그멘테이션 분야에서 최신 기술 수준의 성능을 달성한다.
KITTI 2015에서 EPC++(단안)는 배경 분할 평균 IoU가 0.50을 기록하여 이전 작업의 설명 가능성 마스크(0.38)와 EPC(0.52)를 초월한다.
단안 EPC++ 모델은 스케일 모호성에도 불구하고 스테레오 기반 EPC와 유사한 성능을 보이며, 평균 IoU가 0.53(단안) 대비 0.52(스테레오)를 기록하여 공동 모델링의 효과를 입증한다.
스냅샷 흐름 평가에서 EPC++(단안)는 배경에 대해 D1 점수 30.67, 전경에 대해 34.38을 기록하여 이전 최신 기술 수준의 방법인 EPC(스테레오)의 23.62 및 27.38을 초월한다.
적응형 학습 전략은 더 빠른 수렴과 더 나은 일반화를 이끌어내었으며, 모든 작업 및 데이터셋에서 성능 향상이 관찰되었다.
통합된 3차원 운동 해석기는 강성, 비정형, 가림 영역을 성공적으로 분리하여 픽셀 단위의 운동 이해를 정확히 가능하게 하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.