QUICK REVIEW

[논문 리뷰] Unsupervised Monocular Depth Learning in Dynamic Scenes

Hanhan Li, Ariel Gordon|arXiv (Cornell University)|2020. 10. 30.

Advanced Vision and Imaging참고 문헌 43인용 수 57

한 줄 요약

이 논문은 보조 신호 없이 단안 영상에서 깊이, 자기운동, 그리고 밀집한 3D 객체 평행 이동 필드를 학습하며, 동적 장면을 다루기 위한 새로운 모션 정규화(L_g1 및 L_{1/2})를 사용하고, Cityscapes, KITTI, Waymo Open Dataset, YouTube 비디오에서 최첨단 또는 경쟁력 있는 성능을 달성한다.

ABSTRACT

We present a method for jointly training the estimation of depth, ego-motion, and a dense 3D translation field of objects relative to the scene, with monocular photometric consistency being the sole source of supervision. We show that this apparently heavily underdetermined problem can be regularized by imposing the following prior knowledge about 3D translation fields: they are sparse, since most of the scene is static, and they tend to be constant for rigid moving objects. We show that this regularization alone is sufficient to train monocular depth prediction models that exceed the accuracy achieved in prior work for dynamic scenes, including methods that require semantic input. Code is at https://github.com/google-research/google-research/tree/master/depth_and_motion_learning .

연구 동기 및 목표

단일 카메라 비디오 감독만으로 매우 동적인 장면에서 깊이 추정의 동기를 제시하고 이를 해결한다.
깊이, ego-motion 및 움직이는 객체를 위한 밀집 3D 평행 이동 필드를 공동 학습한다.
의미 정보나 스테레오 없이도 강건한 깊이 예측을 가능하게 하도록 잔류 객체 운동을 정규화한다.

제안 방법

인코더-디코더 깊이 네트워크가 프레임별 깊이를 예측한다.
모션 네트워크가 밀집 3D 객체 평행 이동 필드 T_obj(u,v)와 6D ego-motion 벡터 M_ego를 예측한다.
깊이 네트워크와 모션 네트워크는 두 프레임을 처리한다: 깊이는 프레임별 독립적으로, 모션은 깊이를 추가 입력 채널로 사용하여 두 프레임을 함께 활용한다.
모션 정규화 L_reg,mot은 군간 평활성 L_g1과 L_{1/2} 희소성을 결합해 강체 객체에서 구획화된 모션을 강제한다.
에지 인식 깊이 정규화 및 일관성 손실: L_reg,dep, L_rgb(광도 차 기반), L_cyc(모션 순환 일관성).
분화가능한 뷰 변환기가 K, R, T를 사용하여 프레임 간 워핑을 수행하고 자기지도 학습에 활용한다.

실험 결과

연구 질문

RQ1단일 카메라 비디오가 의미 정보나 스테레오 신호 없이도 깊이, 자기운동, 밀집 객체 모션 학습을 감독할 수 있는가?
RQ2잔류 모션 필드를 어떻게 정규화하면 동적 장면(움직이는 물체 포함)에서도 깊이 정확도를 보존할 수 있는가?
RQ3제안된 정규화를 사용할 때 표준 동적-장면 벤치마크(Cityscapes, KITTI, Waymo) 및 야생 비디오에서의 성능 향상은 무엇인가?
RQ4모션 네트워크에 깊이를 추가 입력 채널로 포함하는 것이 모션 추정에 도움이 되는가?
RQ5모션 정규화에서 L_{1/2}와 L_{1}의 사용 차이가 어떤 영향을 미치는가?

주요 결과

시티스케이프(Cityscapes)와 Waymo Open Dataset에서 비지도 깊이 학습으로 최첨단 수준의 성능을 달성하고, KITTI에서는 의미 입력 없이도 경쟁력 있는 결과를 달성한다.
깊이는 프레임별로 학습되고, 모션은 프레임 쌍으로 3D 평행 이동 필드와 ego-motion으로 학습된다.
두 부분 모션 정규화(L_g1와 자기정규화된 L_{1/2})는 움직이는 물체 내부의 희소성과 구획된 모션을 강제해, 동적 상황에서도 깊이 추정의 강건성을 가능하게 한다.
추론은 V100에서 해상도 480x192당 약 5.3 ms로 실행되어 최적화되지 않은 상태에서 약 190 FPS를 가능하게 한다.
도핑(절삭) 실험은 모션 네트워크에 깊이 입력을 제거하거나 L_{1}를 L_{1/2} 대신 사용할 때 Cityscapes에서 성능이 저하됨을 보여주고, 사전 학습 마스크를 추가하면 설정에 따라 작은 이득이나 추가 이점이 없음을 시사한다.
데이터셋별 결과: Cityscapes 절삭(Ablation)에서 Abs Rel 0.119, Sq Rel 1.29, RMSE 6.98, RMSE log 0.190; KITTI(Eigen 분할) Abs Rel 0.130, Sq Rel 0.950, RMSE 5.138, RMSE log 0.209, δ<1.25 0.843, δ<1.25^2 0.948, δ<1.25^3 0.978; Waymo Open Dataset(마스크 미사용) Abs Rel 0.162, Sq Rel 1.711, RMSE 7.833, RMSE log 0.223 (마스크 사용 시: Abs Rel 0.157, Sq Rel 1.531, RMSE 7.090, RMSE log 0.205).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.