QUICK REVIEW

[논문 리뷰] Gradient Surgery for Multi-Task Learning

Tianhe Yu, Saurabh Kumar|arXiv (Cornell University)|2020. 01. 19.

Domain Adaptation and Few-Shot Learning참고 문헌 56인용 수 108

한 줄 요약

tldr: PCGrad를 제안하는, 서로 충돌하는 작업 그래디언트를 다른 작업 그래디언트의 법선 평면에 투영하여 다중 작업 학습에서 간섭을 완화하고, 감독 학습 및 강화 학습 과제 전반에서 데이터 효율성과 성능을 향상시키는 gradient-surgery 방법.

ABSTRACT

While deep learning and deep reinforcement learning (RL) systems have demonstrated impressive results in domains such as image classification, game playing, and robotic control, data efficiency remains a major challenge. Multi-task learning has emerged as a promising approach for sharing structure across multiple tasks to enable more efficient learning. However, the multi-task setting presents a number of optimization challenges, making it difficult to realize large efficiency gains compared to learning tasks independently. The reasons why multi-task learning is so challenging compared to single-task learning are not fully understood. In this work, we identify a set of three conditions of the multi-task optimization landscape that cause detrimental gradient interference, and develop a simple yet general approach for avoiding such interference between task gradients. We propose a form of gradient surgery that projects a task's gradient onto the normal plane of the gradient of any other task that has a conflicting gradient. On a series of challenging multi-task supervised and multi-task RL problems, this approach leads to substantial gains in efficiency and performance. Further, it is model-agnostic and can be combined with previously-proposed multi-task architectures for enhanced performance.

연구 동기 및 목표

다중 작업 학습에서 그래디언트 간섭으로 인해 발생하는 최적화 도전 과제를 식별한다.
충돌하는 그래디언트, 지배하는 그래디언트, 그리고 높은 곡률의 비극적 삼합을 규명한다.
그래디언트 충돌을 완화하기 위한 gradient-surgery 기법(PCGrad)을 개발한다.
감독 학습과 강화 학습 과제 전반에서 PCGrad의 모델-독립적 적용 가능성을 입증한다.

제안 방법

그래디언트 간섭을 유발하는 다중 작업 최적화 풍경의 세 가지 조건을 정의한다.
두 그래디언트 간 코사인 유사도가 음수일 때 한 작업 그래디언트를 다른 작업 그래디언트의 법선 평면으로 투영하는 PCGrad를 도입한다.
어떤 그래디언트 기반 최적화기에서도 PCGrad를 적용하는 간단한 알고리즘(Algorithm 1)을 제공한다.
두 작업의 볼록성이고 미분 가능 환경에서 PCGrad를 이론적으로 분석하고 향상된 최적화를 위한 충분 조건을 도출한다.
기존 다중 작업 아키텍처(MTAN, routing networks 등)와 PCGrad를 결합했을 때의 호환성과 개선을 입증한다.
다중 작업 감독 학습, 다중 작업 RL, 그리고 목표 조건부 RL에서 PCGrad를 평가하여 데이터 효율성과 성능을 평가한다.

실험 결과

연구 질문

RQ1PCGrad가 다중 작업 학습 시나리오에서 그래디언트 간섭을 줄이고 데이터 효율성을 향상시키는가?
RQ2PCGrad를 기존의 다중 작업 아키텍처와 결합하여 추가 성능 향상을 얻을 수 있는가?
RQ3제시된 그래디언트 비극(충돌 그래디언트, 지배 그래디언트, 높은 곡률)이 다중 작업 학습의 최적화 난이도에 있어 주된 요인인가?
RQ4감독 학습과 강화 학습 설정에서 PCGrad의 성능은 기준선과 비교하여 어떤가?

주요 결과

PCGrad는 다중 작업 감독 학습 및 다중 작업 RL 문제에서 데이터 효율성과 최종 성능을 크게 향상시킨다.
CIFAR-100에서 PCGrad를 routing networks와 결합하면 테스트 정확도에서 절대 2.8 퍼센트 포인트 향상을 얻는다.
CelebA에서 PCGrad는 이전 방법 Sener and Koltun보다 평균 다중 작업 분류 오차가 더 낮다(8.69 대 8.95).
NYUv2 과제에서 MTAN + PCGrad가 9개 범주 중 8개에서 최상의 점수를 달성한다.
Meta-World MT10/MT50 벤치마크에서 SAC+PCGrad가 성공률과 데이터 효율성 면에서 기준선보다 우수하고, 더 적은 샘플로 더 많은 과제를 해결한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.