QUICK REVIEW

[논문 리뷰] Multi-Task Learning as Multi-Objective Optimization

Ozan Şener|arXiv (Cornell University)|2018. 10. 10.

Domain Adaptation and Few-Shot Learning인용 수 340

한 줄 요약

본 논문은 다중 작업 학습을 파레토 최적화 다목적 문제로 재정의하고, 심층 네트워크를 위한 확장 가능한 그래디언트 기반 최적화기(MGDA-UB with Frank-Wolfe)를 도입하며, MultiMNIST, CelebA, Cityscapes에서 벤치마크보다 우수한 성능을 보인다.

ABSTRACT

In multi-task learning, multiple tasks are solved jointly, sharing inductive bias between them. Multi-task learning is inherently a multi-objective problem because different tasks may conflict, necessitating a trade-off. A common compromise is to optimize a proxy objective that minimizes a weighted linear combination of per-task losses. However, this workaround is only valid when the tasks do not compete, which is rarely the case. In this paper, we explicitly cast multi-task learning as multi-objective optimization, with the overall objective of finding a Pareto optimal solution. To this end, we use algorithms developed in the gradient-based multi-objective optimization literature. These algorithms are not directly applicable to large-scale learning problems since they scale poorly with the dimensionality of the gradients and the number of tasks. We therefore propose an upper bound for the multi-objective loss and show that it can be optimized efficiently. We further prove that optimizing this upper bound yields a Pareto optimal solution under realistic assumptions. We apply our method to a variety of multi-task deep learning problems including digit classification, scene understanding (joint semantic segmentation, instance segmentation, and depth estimation), and multi-label classification. Our method produces higher-performing models than recent multi-task learning formulations or per-task training.

연구 동기 및 목표

작업 간 충돌과 경쟁 목표로 인해 MTL을 다목적 문제로 동기 부여한다.
MTL을 단일 가중합이 아닌 파레토 최적해를 찾도록 공식화한다.
고차원 그래디언트와 다수의 작업을 다루는 확장 가능한 최적화기를 개발한다.
상한선을 최적화하는 것이 합리적 가정에서 파레토 최적성으로 이어짐을 보인다.
다양한 데이터 세트와 작업 세트(2–40 작업)에서의 효과를 입증한다.

제안 방법

각 작업 손실을 벡터 값 목적 L(θsh, θ1,..., θT)로 형식화한다.
MGDA/KKT 프레임워크를 사용한 그래디언트 기반 다목적 최적화를 적용하여 하강 방향을 찾는다.
작업 그래디언트의 볼록 범위에서 최소 노름 문제를 풀어 작업 조합 가중치 α1,...,αT를 얻는다( Eq. 3 ).
Frank-Wolfe 기반 해법으로 확장 가능하게 α를 계산하고, 두 작업 케이스에 대한 해석적 직선 탐색(Eq. 4)을 도출한다.
공유 그래디언트 노름을 Z에 대한 그래디언트를 사용하는 상한으로 대체하는 MGDA-UB를 도입하여 한 번의 역전파만 필요하게 한다(섹션 3.3).
∂Z/∂θsh에 대한 완전 랭크 가정에서 MGDA-UB가 파레토 정지점을 산출함을 보이는 정리 1을 제시한다.
인코더-디코더 아키텍처에 적용하여 업데이트를 한 번의 역전파와 공유 표현 g(·; θsh)로 계산할 수 있게 조정한다.

실험 결과

연구 질문

RQ1MTL을 다목적 최적화 문제로 어떻게 형상화하고 적절한 최적성 개념은 무엇인가(파레토 최적성)?
RQ2그래디언트 기반 MGDA를 고차원 심층 네트워크와 많은 작업에서 과도한 오버헤드 없이 확장할 수 있는가?
RQ3상한선 최적화(MGDA-UB)가 현실적 조건에서 파레토 최적성을 보존하는가?
RQ4제안 방법이 서로 다른 도메인(분류, 다중 라벨, 장면 이해)에서 다양한 목표 수(2–40)로 이루어진 작업에 대해 어떻게 성능을 보이는가?

주요 결과

MGDA-UB 접근법은 거의 오버헤드 없이 파레토 최적 또는 파레토 정지점 해를 산출한다.
MultiMNIST(2 작업)에서 본 방법은 단일 작업 성능과 유사하거나 이를 따라가며 다른 MTL 벤치마크보다 우수한 성능을 보이며, 용량 공유가 효과적임을 시사한다.
CelebA(40 작업)에서 평균 오차가 균일 스케일링, Kendall 2018, GradNorm보다 낮다.
Cityscapes(3 작업)에서 벤치마크 중 가장 높은 mIoU와 가장 낮은 픽셀 차이 오차를 달성한다.
MGDA-UB는 훈련 속도를 크게 높이며(3작업 장면 이해에서 40%, 40작업 CelebA에서 25배 속도 향상) 전체 MGDA와 유사한 정확도를 유지한다.
작업과 데이터 세트 전반에서 제안 방법은 일관되게 벤치마크를 능가하며 많은 작업으로의 확장 가능 MTl을 지지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.