[논문 리뷰] Regularizing Deep Multi-Task Networks using Orthogonal Gradients
이 논문은 딥 다중작업 네트워크에서 작업 간 간섭을 줄이고 성능을 햖스키기 위해 작업 기울기 간 직교성을 강제하는 새로운 기울기 정규화 방법인 CosReg을 제안한다. 서로 다른 작업의 기울기 간余弦 유사도를 최소화함으로써, 디코더가 서로 다른 특징 표현을 학습하도록 유도하여, 세분화 및 깊이 추정 작업에 대해 NYUv2 및 SUN RGB-D에서 경쟁적인 성능을 달성한다.
Deep neural networks are a promising approach towards multi-task learning because of their capability to leverage knowledge across domains and learn general purpose representations. Nevertheless, they can fail to live up to these promises as tasks often compete for a model's limited resources, potentially leading to lower overall performance. In this work we tackle the issue of interfering tasks through a comprehensive analysis of their training, derived from looking at the interaction between gradients within their shared parameters. Our empirical results show that well-performing models have low variance in the angles between task gradients and that popular regularization methods implicitly reduce this measure. Based on this observation, we propose a novel gradient regularization term that minimizes task interference by enforcing near orthogonal gradients. Updating the shared parameters using this property encourages task specific decoders to optimize different parts of the feature extractor, thus reducing competition. We evaluate our method with classification and regression tasks on the multiDigitMNIST, NYUv2 and SUN RGB-D datasets where we obtain competitive results.
연구 동기 및 목표
- 공유 파rameter 최적화 중 경쟁하는 기울기로 인해 발생하는 딥 다중작업 네트워크 내 작업 간섭 문제를 해결하기 위해.
- 기울기 방향 일치(특히 직교성)가 다중작업 성능 향상과 상관관계가 있는지 조사하기 위해.
- 작업 간 경쟁을 줄이기 위해 기울기 직교성을 명시적으로 강제하는 새로운 정규화 기법을 개발하기 위해.
- 다양한 작업 유사도와 스케일에서 NYUv2 및 SUN RGB-D를 포함한 다양한 다중작업 시각 벤치마크에서 방법을 평가하기 위해.
- 일반적인 정규화 기법인 Dropout 및 BatchNorm이 암묵적으로 유도하는 직교성에 대해 탐구하기 위해.
제안 방법
- 공유 파rameter에 대해 서로 다른 작업의 기울기 간 제곱 여론을 최소화하는 새로운 정규화 항을 제안한다.
- 비직교 기울기 방향을 페널티 처리하는 손실 성분을 도입하여, 작업별 디코더가 공유 특징 추출기의 서로 다른 부분을 활용하도록 유도한다.
- 전체 다중작업 손실에서 기울기 직교성 페널티의 강도를 제어하는 하이퍼파rameter α를 적용한다.
- NYUv2 및 SUN RGB-D에서 실험을 수행할 때 Adam 옵티마이저를 사용하고 학습률 감소 및 데이터 증강(예: 수평 반전)을 적용한다.
- 표준 하드 파라미터 공유 아키텍처를 사용하여 공유 인코더와 작업별 디코더를 갖춘 세분화 및 깊이 추정을 위한 구조를 구현한다.
- 정규화가 기울기 상호작용에 미치는 영향을 분석하기 위해 훈련 전반에 걸쳐 기울기 각도 분산과 여론 분포를 측정한다.
실험 결과
연구 질문
- RQ1작업 기울기 간 각도의 높은 분산이 악성 다중작업 성능과 상관관계가 있는가?
- RQ2기울기 직교성의 명시적 정규화가 다중작업 딥 네트워크의 일반화 성능 향상과 작업 간 간섭 감소에 기여하는가?
- RQ3Dropout 및 BatchNorm과 같은 일반적인 정규화 기법이 암묵적으로 기울기 직교성을 촉진하는가?
- RQ4매우 상관관계가 높은 작업(예: 굵은 세분화 및 정밀 세분화)에서 기울기 직교성은 어떻게 작용하는가?
- RQ5기울기 방향 정규화가 GradNorm 및 Kendall 등(2018)과 같은 크기 기반 손실 가중치 방법보다 우월한 성능을 내는가?
주요 결과
- 정규화되지 않은 다중작업 모델은 작업 기울기 간 여론 유사도에서 높은 분산을 보이며, 빈번한 간섭을 나타낸다.
- 성능이 좋은 모델은 항상 기울기 간 여론 유사도가 중심이 되어 분산이 낮은 분포를 보인다.
- Dropout 및 BatchNorm는 암묵적으로 기울기 여론 분산을 줄여주며, 이는 훈련 중에 직교성을 촉진한다는 것을 시사한다.
- 제안된 CosReg 방법은 NYUv2 및 SUN RGB-D에서 최신 기술 성능을 달성하여 등가 가중치 기반 베이스라인 및 GradNorm, Kendall 등(2018)과 같은 방법을 모두 능가한다.
- SUN RGB-D 데이터셋에서 CosReg는 굵은 세분화에서 1-mIoU 0.644, 정밀 세분화에서 0.714를 기록하여 모든 베이스라인을 능가한다.
- 심지어 상당히 상관관계가 높은 작업(예: 굵은 및 정밀 세분화)이 존재하는 상황에서도 CosReg는 기울기 직교성을 성공적으로 강제하고 성능 향상을 이룬다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.