QUICK REVIEW

[논문 리뷰] Depth Anything V2

Lihe Yang, Bingyi Kang|arXiv (Cornell University)|2024. 06. 13.

Advanced Vision and Imaging인용 수 9

한 줄 요약

Depth Anything V2는 정확한 합성 라벨로 학습한 후 교사-학생 프레임워크를 통해 대규모 의사 라벨링된 실제 이미지를 활용하여 미세하고 견고한 깊이 예측과 다목적 평가 벤치마크(DA-2K)를 달성하는 강인한 단안 깊이 추정 모델을 구축합니다.

ABSTRACT

This work presents Depth Anything V2. Without pursuing fancy techniques, we aim to reveal crucial findings to pave the way towards building a powerful monocular depth estimation model. Notably, compared with V1, this version produces much finer and more robust depth predictions through three key practices: 1) replacing all labeled real images with synthetic images, 2) scaling up the capacity of our teacher model, and 3) teaching student models via the bridge of large-scale pseudo-labeled real images. Compared with the latest models built on Stable Diffusion, our models are significantly more efficient (more than 10x faster) and more accurate. We offer models of different scales (ranging from 25M to 1.3B params) to support extensive scenarios. Benefiting from their strong generalization capability, we fine-tune them with metric depth labels to obtain our metric depth models. In addition to our models, considering the limited diversity and frequent noise in current test sets, we construct a versatile evaluation benchmark with precise annotations and diverse scenes to facilitate future research.

연구 동기 및 목표

실제 라벨이 지정된 이미지를 합성 깊이 라벨로 대체하여 정밀도와 디테일을 개선한다.
교사 모델의 예측을 이용해 학생 모델을 지도하도록 교사 모델을 확장한다.
대규모 의사 라벨링 실제 이미지로 합성-실제 간의 차이를 좁혀 일반화를 개선한다.
모델 다양성(25M에서 1.3B 파라미터) 제공 및 다운스트림 태스크를 위한 파인튜닝 가능성을 확보한다.
깊이 추정 문제에 대한 다용도, 고해상도 평가 벤치마크(DA-2K)를 도입한다.

제안 방법

정확한 합성 깊이 데이터로 고용량 교사를 학습한다.
교사로부터 의사 깊이를 사용해 대규모 미라벨 REAL 이미지를 주석화한다.
의사 라벨이 부여된 실제 이미지에서만 학습하는 학생 모델을 학습시켜 제로샷 일반화를 가능하게 한다.
메트릭 깊이 라벨로 기본 모델을 파인튜닝하여 메트릭 깊이 모델을 얻는다.
정합 불변의 역깊이 정의와 두 가지 손실(스케일- 및 시프트 불변 손실; 그래디언트 매칭 손실)을 감독에 사용한다.
사전 학습된 인코더에서의 의미를 보존하기 위해 의사 라벨링된 데이터에 추가 특징 정렬 손실을 도입한다.

실험 결과

연구 질문

RQ1효율적인 판별 모델이 무거운 확산 기반 모델링 없이도 미세한 깊이 디테일을 달성할 수 있는가?
RQ2합성 데이터가 단안 깊이 추정에 미치는 한계는 무엇이며 이를 어떻게 완화할 수 있는가?
RQ3라벨이 없는 실제 이미지를 활용해 합성-실제 간 차이를 좁히고 소형 모델의 일반화를 개선할 수 있는 방법은 무엇인가?

주요 결과

모든 실제 라벨이 지정된 이미지를 합성 이미지로 대체하면 정밀한 깊이 라벨과 상세한 감독이 가능하다.
합성 데이터로 학습된 대용량 교사와 실제 이미지의 의사 라벨링이 결합되어 견고성과 미세한 깊이 예측이 크게 향상된다.
Depth Anything V2는 25M에서 1.3B 파라미터의 다중 모델 스케일을 제공하며 비교적 SD 기반 모델보다 더 빠른 추론 속도를 보인다.
의사 라벨링된 실제 이미지를 학습 데이터로 사용할 때 제로샷 성능이 강화되고 장면 커버리지가 넓어진다.
새로운 평가 벤치마크인 DA-2K는 다양하고 고해상도 장면과 정밀하고 희박한 깊이 라벨을 제공하여 실제 세계의 MDE 성능을 더 잘 반영한다.
실제 데이터에 대한 의사 라벨이 수동으로 라벨링된 실제 데이터보다 전이 작업에서 우수하다(예: KITTI, NYU-D).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.