Skip to main content
QUICK REVIEW

[논문 리뷰] Just Pick a Sign: Optimizing Deep Multitask Models with Gradient Sign Dropout

Chen Zhao, Jiquan Ngiam|arXiv (Cornell University)|2020. 10. 14.
Domain Adaptation and Few-Shot Learning참고 문헌 51인용 수 64
한 줄 요약

GradDrop은 일관성 점수를 기반으로 기울기 부호를 선택하는 기울기 마스킹 층을 도입하여 다중 손실 간의 공동 최소를 촉진하고 다중 작업 학습(multitask) 및 전이 학습 성능을 향상시킨다.

ABSTRACT

The vast majority of deep models use multiple gradient signals, typically corresponding to a sum of multiple loss terms, to update a shared set of trainable weights. However, these multiple updates can impede optimal training by pulling the model in conflicting directions. We present Gradient Sign Dropout (GradDrop), a probabilistic masking procedure which samples gradients at an activation layer based on their level of consistency. GradDrop is implemented as a simple deep layer that can be used in any deep net and synergizes with other gradient balancing approaches. We show that GradDrop outperforms the state-of-the-art multiloss methods within traditional multitask and transfer learning settings, and we discuss how GradDrop reveals links between optimal multiloss training and gradient stochasticity.

연구 동기 및 목표

  • 여러 기울기 신호의 순진한 합산이 방향 불일치로 인해 다중 작업 학습을 방해할 수 있음을 시사한다.
  • 기울기 부호를 선택적으로 마스킹하여 공동 최소를 촉진하기 위해 GradDrop를 제안한다.
  • 다중 작업 학습, 전이 학습 및 복잡한 단일 작업 모델 전반에서 GradDrop의 효과를 보여준다.
  • 이론적 속성과 기존 기울기 균형 방법들과의 시너지를 탐구한다.

제안 방법

  • Gradient Positive Sign Purity P = 1/2(1 + sum_i ∇L_i / sum_i |∇L_i|)를 정의한다.
  • 각 기울기에 대해 단조 함수 f와 무작위 균등 변수 U를 사용하여 어느 부호를 유지할지 결정하고, 새로운 기울기를 sum_i M_i ∇L_i로 생성하는 마스크 M_i를 계산한다.
  • 필요한 곳을 편향시키기 위한 선택적 누출 매개변수 ℓ_i를 갖는 예측 헤드 이전의 모듈형 레이어로 GradDrop를 적용하고, 필요 시 이를 사용한다.
  • 가상의 레이어로 P와 M_i를 계산하기 위해 배치를 가로질러 기울기를 합산하여 배치 분리된 GradDrop로 확장한다.
  • 정규화 및 선택적 기울기 누출을 포함하여 GradDrop 레이어의 BACKWARD 패스에 대한 전체 알고리즘을 제공한다.
  • GradDrop가 공동 최소에서만 안정한 점을 보장하고 기울기 크기가 각 손실에 민감하게 남아 있음을 증명한다.

실험 결과

연구 질문

  • RQ1다중 작업 설정에서 GradDrop가 여러 손실에 걸쳐 최적화를 신뢰할 수 있게 공동 최소로 이끌 수 있는가?
  • RQ2다양한 작업과 아키텍처에서 GradDrop가 기존 다중 작업 기울기 방법(MGDA, PCGrad, GradNorm)과 어떻게 비교되는가?
  • RQ3GradDrop가 전이 학습 및 다른 기울기 기반 정규화와 유익하게 상호작용하는가?
  • RQ4GradDrop 업데이트의 이론적 보장 및 통계적 특성은 무엇인가?

주요 결과

방법오류율(%) ↓최대 F1 점수 ↑베이스라인 대비 속도 ↑
Baseline8.7129.351.00
Gradient Clipping [50]8.7029.341.00
Gradient Penalty [10]8.6329.430.35
MGDA [37]10.8226.000.25
PCGrad [47]8.7229.250.20
GradNorm [3]8.6829.320.41
Random GradDrop8.6029.420.45
GradDrop (ours)8.5229.570.45
  • GradDrop가 CelebA, CIFAR-100 전이, Waymo 3D 탐지에서 핵심 지표에 대해 최신 다중 작업 방법을 능가한다.
  • CelebA에서 GradDrop는 최저 오차율(8.52%)과 최고 max F1(29.57)을 baselines와 비슷한 속도로 달성한다.
  • GradDrop는 전이 학습(CIFAR-100) 및 3D 탐지 지표에서 눈에 띄는 이점을 제공하고 GradNorm과 시너지를 낸다.
  • GradDrop는 기대되는 총 손실 이동을 유지하고 각 작업에 대한 기울기 민감도를 높여 공동 최소를 촉진한다.
  • GradDrop는 계산적으로 효율적이며 추론 시 오버헤드가 거의 없고 일반적으로 일부 대안보다 학습 시간이 더 짧다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.