QUICK REVIEW

[논문 리뷰] GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks

Zhao Chen, Vijay Badrinarayanan|arXiv (Cornell University)|2017. 11. 07.

Advanced Neural Network Applications참고 문헌 28인용 수 448

한 줄 요약

GradNorm은 gradient 기반 손실 항을 통해 그래디언트 크기를 동적으로 조정함으로써 다중 작업 학습의 균형을 자동으로 맞추고, 과적합을 줄이며 단일 비대칭 하이퍼파라미터 α로 그리드 탐색 성능과 일치시킵니다.

ABSTRACT

Deep multitask networks, in which one neural network produces multiple predictive outputs, can offer better speed and performance than their single-task counterparts but are challenging to train properly. We present a gradient normalization (GradNorm) algorithm that automatically balances training in deep multitask models by dynamically tuning gradient magnitudes. We show that for various network architectures, for both regression and classification tasks, and on both synthetic and real datasets, GradNorm improves accuracy and reduces overfitting across multiple tasks when compared to single-task networks, static baselines, and other adaptive multitask loss balancing techniques. GradNorm also matches or surpasses the performance of exhaustive grid search methods, despite only involving a single asymmetry hyperparameter $α$. Thus, what was once a tedious search process that incurred exponentially more compute for each task added can now be accomplished within a few training runs, irrespective of the number of tasks. Ultimately, we will demonstrate that gradient manipulation affords us great control over the training dynamics of multitask networks and may be one of the keys to unlocking the potential of multitask learning.

연구 동기 및 목표

작업 간 불균형한 그래디언트로 인해 딥 멀티태스크 네트워크를 학습하는 데 직면하는 어려움을 동기 부여한다.
손실 가중치를 통해 그래디언트 크기를 조정하여 작업 학습의 균형을 맞추는 GradNorm를 제안한다.
합성 및 실제 데이터에서 회귀 및 분류 작업 전반에 걸쳐 GradNorm가 멀티태스크 성능을 향상시킨다.
최소한의 하이퍼파라미터 튜닝으로 GradNorm가 그리드 탐색 기반 기준선과 일치하거나 이를 능가할 수 있음을 입증한다.

제안 방법

작업별 그래디언트 노름 G_W^(i)(t)과 작업 간 평균 그래디언트 노름을 정의한다.
각 작업에 대한 목표 그래디언트 노름을 G_W^(i)(t) ≈ ¯G_W(t) * [r_i(t)]^α 로 도입한다. 여기서 r_i(t)는 상대적 역학습 비율이며 α는 하이퍼파라미터이다.
그라디언트 손실 L_grad(t; w_i(t)) = Σ_i | G_W^(i)(t) − ¯G_W(t) * [r_i(t)]^α |1 로 정의하고, 미분 중 ¯G_W(t)를 고정한 채 L_grad를 최소화하도록 w_i(t)를 최적화한다.
업데이트마다 합성 w_i(t)를 재정규화하여 Σ_i w_i(t) = T가 되도록 한다.
전체 손실 L(t) = Σ_i w_i(t)L_i(t)를 사용하여 네트워크 매개변수 W를 업데이트하기 위해 표준 역전파를 적용한다.
계산량 감소를 위해 그래디언트 정규화에 마지막 공유층 W를 사용한다.

실험 결과

연구 질문

RQ1GradNorm가 딥 네트워크의 다양한 멀티태스크 목표 간 학습의 균형을 맞출 수 있는가?
RQ2정적 가중치 및 불확실성 기반 가중치 방식과 비교해 정확도와 과적합 측면에서 GradNorm은 어떤가?
RQ3비대칭 하이퍼파라미터 α가 학습 dynamics와 최종 성능에 미치는 영향은 무엇인가?
RQ4그리드 탐색을 모두 수행하지 않고도 GradNorm가 거의 최적의 정적 손실 가중치를 회복할 수 있는가?

주요 결과

GradNorm은 합성 데이터와 실데이터의 회귀 및 분류 작업에서 멀티태스크 테스트 시 성능을 향상시킨다.
GradNorm은 단일 태스크 네트워크에 필적하거나 이를 능가하고, 여러 설정에서 정적 가중치 및 불확실성 기반 기준선을 능가한다.
이 방법은 단 하나의 하이퍼파라미터 α만 조정하면 되고 단일 학습 실행에서 최적의 그리드 탐색 가중치를 에뮬레이션할 수 있다.
시간 평균 GradNorm 가중치 E_t[w_i(t)]가 최적의 정적 가중치와 밀접하게 일치하여 효과적인 정적 가중치 추정이 가능하다.
GradNorm은 학습 중에 작업 간 그래디언트 기여를 적극적으로 균형 잡아 과적합을 줄일 수 있다.
GradNorm은 NYUv2 데이터셋 내의 다양한 아키텍처(예: VGG SegNet, ResNet 기반 FCN) 및 작업에서도 강건성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.