[논문 리뷰] Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics
이 논문은 단일 모노큘라 이미지에서 의미 분할, 인스턴스 분할 및 깊이 회귀에 대해 자동으로 손실을 가중하기 위해 동형 불확실성(과제) 불확실성을 사용하는 원칙적인 다중 작업 손실을 도입하여 단일 작업 모델을 능가합니다.
Numerous deep learning applications benefit from multi-task learning with multiple regression and classification objectives. In this paper we make the observation that the performance of such systems is strongly dependent on the relative weighting between each task's loss. Tuning these weights by hand is a difficult and expensive process, making multi-task learning prohibitive in practice. We propose a principled approach to multi-task deep learning which weighs multiple loss functions by considering the homoscedastic uncertainty of each task. This allows us to simultaneously learn various quantities with different units or scales in both classification and regression settings. We demonstrate our model learning per-pixel depth regression, semantic and instance segmentation from a monocular input image. Perhaps surprisingly, we show our model can learn multi-task weightings and outperform separate models trained individually on each task.
연구 동기 및 목표
- 장면 이해를 위한 다중 작업 학습에서 효과적인 손실 가중치 부여의 필요성을 제시한다.
- 회귀와 분류 손실의 균형을 맞추기 위해 동형 불확실성에 기반한 원칙적인 다중 작업 손실을 제안한다.
- 의미 분할, 인스턴스 분할, 깊이 회귀를 동시에 출력하는 통합 인코더-디코더 아키텍처를 설계한다.
- 공동으로 학습된 기하학과 의미 정보를 통해 단일 작업 모델보다 성능이 향상될 수 있음을 보여준다.]
- method:[
제안 방법
- 각 작업을 가우시안(회귀) 또는 소프트맥스 가능도(분류)로 모델링하고 작업별 노이즈 매개변수(불확실성)를 도입하여 확률적 다중 작업 손실을 공식화한다.
- (학습된) 노이즈 항의 역수에 의해 작업 손실을 가중하고 경사해가 않는 해를 방지하는 정규화된 로그 분산 항을 포함한 공동 손실을 도출한다.
- Semantic segmentation, instance segmentation, depth regression에 대해 작업 특이적 디코더를 갖춘 DeepLabV3 기반의 인코더를 훈련한다.
- 픽셀별 투표가 인스턴스 중심으로 향하고 군집화(OPTICS)가 최종 인스턴스를 산출하는 인스턴스 중심 회귀 방식을 인스턴스 분할에 사용한다.
- 깊이 회귀를 위한 픽셀별 역깊이를 예측하고 의미 분할에는 교차 엔트로피 손실을 적용하며 학습된 불확실성 기반 가중치를 통해 이를 결합한다.]
- research_questions:[
- Can homoscedastic (task) uncertainty be used to automatically balance losses across multiple tasks in a deep network?
- Does a single multi-task model with uncertainty-weighted losses outperform independently trained single-task models for scene geometry and semantics?
- How does joint learning of depth, semantic, and instance segmentation affect performance and generalisation on road scene understanding?
- What is the architectural arrangement that best supports joint semantic, instance, and depth prediction from monocular input?
실험 결과
연구 질문
- RQ1다층 네트워크에서 다수의 작업에 걸친 손실을 자동으로 균형 있게 조정하는 데 동형 불확실성(과제 불확실성)을 사용할 수 있는가?
- RQ2불확실성 가중 손실을 갖춘 단일 다중 작업 모델이 독립적으로 학습된 단일 작업 모델보다 장면 기하 및 의미에 대해 더 잘 수행하는가?
- RQ3깊이, 의미 및 인스턴스 분할의 공동 학습이 도로 씬 이해의 성능 및 일반화에 어떤 영향을 미치는가?
- RQ4단일 모노큘라 입력으로 의미, 인스턴스, 깊이 예측을 공동으로 지원하는 최적의 아키텍처 배치는 무엇인가?
주요 결과
- 동형 불확실성 기반 작업 가중치는 단순 가중치나 균일 가중치 손실보다 다중 작업 성능을 향상시킨다.
- 제안된 접근 방식은 분리된 단일 작업 모델보다 우수하거나 그리드 탐색으로 얻은 최적 가중치에 근접하거나 이를 능가할 수 있다.
- 공동 학습은 Cityscapes 부분집합 및 전체 데이터 세트에서 의미 분할, 인스턴스 분할 및 깊이 추정에 대해 경쟁력 있거나 우수한 결과를 낸다.
- 단일 네트워크로 세 가지 작업에 대한 최첨단에 근접한 결과를 달성하며 효과적인 공유 표현 학습을 입증한다.
- 학습 중에 학습된 작업 가중치가 진화하며 특정 비율로 의미 분할, 깊이 회귀, 인스턴스 분할를 선호하는 경향이 있다—최종 모델의 보고된 비율은 43:1:0.16 (의미:깊이:인스턴스) 이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.