QUICK REVIEW

[논문 리뷰] Visual Domain Adaptation for Monocular Depth Estimation on Resource-Constrained Hardware

Julia Hornauer, Lazaros Nalpantidis|arXiv (Cornell University)|2021. 08. 05.

Advanced Vision and Imaging참고 문헌 33인용 수 4

한 줄 요약

이 논문은 단안 영상 깊이 추정에서 자원 제약이 있는 하드웨어에서 깊이 신경망을 훈련시켜 시각적 도메인 적응을 위한 최초의 타당성 연구를 제시한다. 엣지 장치에 적합한 적대적 학습 방법을 제안하며, 의미 있는 도메인 적응은 경량 아키텍처와 소규모 타겟 도메인 데이터셋(100~1000개 샘플)이 있을 때만 가능하다는 것을 보여주며, 낮은 에너지 소비로 실시간 추론을 가능하게 한다.

ABSTRACT

Real-world perception systems in many cases build on hardware with limited resources to adhere to cost and power limitations of their carrying system. Deploying deep neural networks on resource-constrained hardware became possible with model compression techniques, as well as efficient and hardware-aware architecture design. However, model adaptation is additionally required due to the diverse operation environments. In this work, we address the problem of training deep neural networks on resource-constrained hardware in the context of visual domain adaptation. We select the task of monocular depth estimation where our goal is to transform a pre-trained model to the target's domain data. While the source domain includes labels, we assume an unlabelled target domain, as it happens in real-world applications. Then, we present an adversarial learning approach that is adapted for training on the device with limited resources. Since visual domain adaptation, i.e. neural network training, has not been previously explored for resource-constrained hardware, we present the first feasibility study for image-based depth estimation. Our experiments show that visual domain adaptation is relevant only for efficient network architectures and training sets at the order of a few hundred samples. Models and code are publicly available.

연구 동기 및 목표

자원 제약이 있는 하드웨어에서 단안 영상 깊이 추정의 현장 적응을 위한 훈련의 타당성을 조사한다.
지상 진실 깊이 레이블에 접근할 수 없는 새로운 레이블이 없는 환경에 사전 훈련된 모델을 배포하는 데 도전한다.
현장 적응 중 모델 복잡도, 훈련 데이터셋 크기, 추론 속도, 에너지 소비 간의 상호 상충 관계를 평가한다.
NVIDIA Jetson Nano 및 라즈베리 파이와 같은 임베디드 시스템에서 적대적 도메인 적합화가 실현 가능하다는 것을 입증한다.

제안 방법

제한된 컴퓨팅 및 메모리 자원을 가진 엣지 하드웨어에서 효율적으로 작동하도록 도메인 적응을 위한 적대적 학습 프레임워크를 조정한다.
비교 평가를 위해 경량 네트워크 아키텍처(FastDepth)와 복잡한 베이스라인(ResNet-UpProj)을 사용한다.
소스 도메인과 타겟 도메인 간의 특징 분포를 일치시키기 위해, 타겟 도메인의 레이블이 없는 이미지로 모델을 훈련시키며 적대적 손실을 적용한다.
공정한 비교를 보장하기 위해, 이전 연구와 마찬가지로 샘플 단위 중앙값 스케일링을 깊이 예측 평가에 적용한다.
실용성을 평가하기 위해 훈련 시간, 에너지 소비, 추론 지연 시간을 측정한다.
다양한 입력 해상도와 데이터셋 크기를 가진 실내(vKITTI → KITTI) 및 실외(KITTI → KITTI) 도메인 적응 시나리오에서 실험을 수행한다.

실험 결과

연구 질문

RQ1자원 제약이 있는 임베디드 하드웨어에서 단안 영상 깊이 추정에 대해 적대적 도메인 적합화를 효과적으로 수행할 수 있는가?
RQ2엣지 장치에서 의미 있는 성능 향상을 달성하기 위해 필요한 최소한의 타겟 도메인 샘플 수는 얼마인가?
RQ3모델 복잡도는 현장 적응 중 훈련 시간, 에너지 소비, 추론 속도에 어떤 영향을 미치는가?
RQ4NVIDIA Jetson Nano와 같은 임베디드 장치에서 깊이 신경망을 직접 훈련시키는 것은 실현 가능한가?

주요 결과

메모리 제약으로 인해 복잡한 모델인 ResNet-UpProj는 훈련에 실패하는 반면, FastDepth와 같은 경량 네트워크 아키텍처에서만 임베디드 하드웨어에서 도메인 적합화가 가능하다.
500~1000개의 타겟 도메인 샘플로 훈련할 경우 성능 향상, 훈련 시간, 에너지 효율성 간의 최적 균형을 달성한다.
FastDepth 모델은 Jetson Nano에서 최소 10밀리초의 추론 시간을 기록하여 실시간 성능을 달성한다.
모델 복잡도의 차이에도 불구하고 에너지 소비는 아키텍처 간 유사하게 유지된다.
시각적 결과는 특히 경량 모델에서 적응 후 깊이 맵 품질이 뚜렷이 향상되었음을 보여주며, 더 나은 객체 경계 구분이 이루어졌다.
해상도가 높아지면(288x704) 훈련 시간은 증가하지만 에너지 소비나 추론 속도에 큰 영향을 주지 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.