Skip to main content
QUICK REVIEW

[논문 리뷰] Gradient Surgery for Multi-Task Learning

Tianhe Yu, Saurabh Kumar|arXiv (Cornell University)|2020. 01. 19.
Domain Adaptation and Few-Shot Learning참고 문헌 56인용 수 108
한 줄 요약

tldr: PCGrad를 제안하는, 서로 충돌하는 작업 그래디언트를 다른 작업 그래디언트의 법선 평면에 투영하여 다중 작업 학습에서 간섭을 완화하고, 감독 학습 및 강화 학습 과제 전반에서 데이터 효율성과 성능을 향상시키는 gradient-surgery 방법.

ABSTRACT

While deep learning and deep reinforcement learning (RL) systems have demonstrated impressive results in domains such as image classification, game playing, and robotic control, data efficiency remains a major challenge. Multi-task learning has emerged as a promising approach for sharing structure across multiple tasks to enable more efficient learning. However, the multi-task setting presents a number of optimization challenges, making it difficult to realize large efficiency gains compared to learning tasks independently. The reasons why multi-task learning is so challenging compared to single-task learning are not fully understood. In this work, we identify a set of three conditions of the multi-task optimization landscape that cause detrimental gradient interference, and develop a simple yet general approach for avoiding such interference between task gradients. We propose a form of gradient surgery that projects a task's gradient onto the normal plane of the gradient of any other task that has a conflicting gradient. On a series of challenging multi-task supervised and multi-task RL problems, this approach leads to substantial gains in efficiency and performance. Further, it is model-agnostic and can be combined with previously-proposed multi-task architectures for enhanced performance.

연구 동기 및 목표

  • 다중 작업 학습에서 그래디언트 간섭으로 인해 발생하는 최적화 도전 과제를 식별한다.
  • 충돌하는 그래디언트, 지배하는 그래디언트, 그리고 높은 곡률의 비극적 삼합을 규명한다.
  • 그래디언트 충돌을 완화하기 위한 gradient-surgery 기법(PCGrad)을 개발한다.
  • 감독 학습과 강화 학습 과제 전반에서 PCGrad의 모델-독립적 적용 가능성을 입증한다.

제안 방법

  • 그래디언트 간섭을 유발하는 다중 작업 최적화 풍경의 세 가지 조건을 정의한다.
  • 두 그래디언트 간 코사인 유사도가 음수일 때 한 작업 그래디언트를 다른 작업 그래디언트의 법선 평면으로 투영하는 PCGrad를 도입한다.
  • 어떤 그래디언트 기반 최적화기에서도 PCGrad를 적용하는 간단한 알고리즘(Algorithm 1)을 제공한다.
  • 두 작업의 볼록성이고 미분 가능 환경에서 PCGrad를 이론적으로 분석하고 향상된 최적화를 위한 충분 조건을 도출한다.
  • 기존 다중 작업 아키텍처(MTAN, routing networks 등)와 PCGrad를 결합했을 때의 호환성과 개선을 입증한다.
  • 다중 작업 감독 학습, 다중 작업 RL, 그리고 목표 조건부 RL에서 PCGrad를 평가하여 데이터 효율성과 성능을 평가한다.

실험 결과

연구 질문

  • RQ1PCGrad가 다중 작업 학습 시나리오에서 그래디언트 간섭을 줄이고 데이터 효율성을 향상시키는가?
  • RQ2PCGrad를 기존의 다중 작업 아키텍처와 결합하여 추가 성능 향상을 얻을 수 있는가?
  • RQ3제시된 그래디언트 비극(충돌 그래디언트, 지배 그래디언트, 높은 곡률)이 다중 작업 학습의 최적화 난이도에 있어 주된 요인인가?
  • RQ4감독 학습과 강화 학습 설정에서 PCGrad의 성능은 기준선과 비교하여 어떤가?

주요 결과

  • PCGrad는 다중 작업 감독 학습 및 다중 작업 RL 문제에서 데이터 효율성과 최종 성능을 크게 향상시킨다.
  • CIFAR-100에서 PCGrad를 routing networks와 결합하면 테스트 정확도에서 절대 2.8 퍼센트 포인트 향상을 얻는다.
  • CelebA에서 PCGrad는 이전 방법 Sener and Koltun보다 평균 다중 작업 분류 오차가 더 낮다(8.69 대 8.95).
  • NYUv2 과제에서 MTAN + PCGrad가 9개 범주 중 8개에서 최상의 점수를 달성한다.
  • Meta-World MT10/MT50 벤치마크에서 SAC+PCGrad가 성공률과 데이터 효율성 면에서 기준선보다 우수하고, 더 적은 샘플로 더 많은 과제를 해결한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.