QUICK REVIEW

[논문 리뷰] PAD-Net: Multi-Tasks Guided Prediction-and-Distillation Network for Simultaneous Depth Estimation and Scene Parsing

Dan Xu, Wanli Ouyang|arXiv (Cornell University)|2018. 05. 11.

Advanced Vision and Imaging참고 문헌 75인용 수 64

한 줄 요약

PAD-Net은 RGB 이미지를 이용해 깊이 추정과 장면 파싱을 공동으로 수행하기 위한 중간 다중 작업 예측과 다중 모달 증류를 도입하여 NYUD-v2에서 최첨단 성능을 달성하고 Cityscapes에서도 경쟁력 있는 성능을 보여줍니다.

ABSTRACT

Depth estimation and scene parsing are two particularly important tasks in visual scene understanding. In this paper we tackle the problem of simultaneous depth estimation and scene parsing in a joint CNN. The task can be typically treated as a deep multi-task learning problem [42]. Different from previous methods directly optimizing multiple tasks given the input training data, this paper proposes a novel multi-task guided prediction-and-distillation network (PAD-Net), which first predicts a set of intermediate auxiliary tasks ranging from low level to high level, and then the predictions from these intermediate auxiliary tasks are utilized as multi-modal input via our proposed multi-modal distillation modules for the final tasks. During the joint learning, the intermediate tasks not only act as supervision for learning more robust deep representations but also provide rich multi-modal information for improving the final tasks. Extensive experiments are conducted on two challenging datasets (i.e. NYUD-v2 and Cityscapes) for both the depth estimation and scene parsing tasks, demonstrating the effectiveness of the proposed approach.

연구 동기 및 목표

향상된 시각적 장면 이해를 위한 공동 깊이 추정 및 장면 파싱의 필요성을 제시한다.
최종 작업에 다중 모달 입력으로 중간 다중 작업 예측을 사용하는 프레임워크를 제안한다.
보조 예측을 깊이 및 의미 해독으로 융합하기 위한 다중 모달 증류 모듈을 도입한다.
중간 감독이 표현 학습 및 최종 작업 성능을 향상시킨다는 것을 보여준다.

제안 방법

RGB 입력으로부터 다중 스케일 특징을 추출하기 위해 프런트 엔코더를 사용한다.
다중 작업 예측 모듈을 통해 네 가지 중간 예측(깊이, 표면 법선, 윤곽, 의미 파싱)을 생성한다.
세 가지 증류 모듈(A: 단순 연결, B: 메시지 전달, C: 주의 기반 메시지 전달)으로 중간 예측을 융합한다.
증류된 다중 모달 정보로부터 최종 깊이 및 장면 파싱 맵을 해독한다.
학습 가능한 가중치를 갖는 여섯 개 작업 손실(깊이, 법선, 윤곽, 파싱 등)을 결합한 합동 손실로 학습한다.
추론은 RGB 입력만 사용하며 최종 예측을 위해 증류된 정보를 활용한다.

실험 결과

연구 질문

RQ1중간 다중 작업 예측이 최종 깊이 및 장면 파싱 작업에 유익한 다중 모달 가이던스를 제공할 수 있는가?
RQ2단순 연결이나 비융합에 비해 다중 모달 증류 전략이 보조 예측의 융합을 향상시키는가?
RQ3도전적인 데이터셋에서 여러 중간 작업을 사용했을 때 깊이 및 의미 파싱 성능에 미치는 영향은 무엇인가?
RQ4PAD-Net이 NYUD-v2 및 Cityscapes에서 단일 작업 기준선 및 이전의 공동 학습 방법과 비교하여 어떤가?

주요 결과

PAD-Net은 ResNet-50을 프런트엔드로 사용하여 NYUD-v2에서 최첨단 깊이 추정 및 장면 파싱을 달성했다.
세 가지 증류 모듈(A: concat, B: message passing, C: attention-guided message passing)은 기준선보다 일관되게 성능을 향상시키며, 모듈 C가 최고를 보인다.
증류를 통해 여러 중간 예측(깊이, 법선, 윤곽, 의미)을 통합하면 최종 계층의 직접 다중 작업 학습보다 현저한 이득이 있다.
NYUD-v2에서 PAD-Net-ResNet50은 rel 0.120, log10 0.055, rms 0.582를 보고하며 깊이에 대해 delta<1.25 0.817, delta<1.25^2 0.954, delta<1.25^3 0.987의 최종 정확도/임계치를 보인다; 장면 파싱은 평균 IoU 0.502, 평균 정확도 0.623, 픽셀 정확도 0.752.
Cityscapes에서 PAD-Net-ResNet101은 IoU cla 0.803, iIoU cla 0.588, IoU cat 0.908, iIoU cat 0.785를 달성하여 강한 의미 파싱 성능을 보여준다.
이 접근법은 NYUD-v2에서 깊이 추정 및 장면 파싱 작업에서 공동으로 학습된 기준선 및 다수의 최첨단 방법들을 능가하며, Cityscapes에서도 RGB 입력만으로 예측 시 경쟁력 있는 장면 파싱 결과를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.