QUICK REVIEW

[논문 리뷰] Understanding and Improving Information Transfer in Multi-Task Learning

Sen Wu, Hongyang Zhang|arXiv (Cornell University)|2020. 05. 02.

Domain Adaptation and Few-Shot Learning참고 문헌 51인용 수 47

한 줄 요약

이 논문은 태스크 특화 헤드를 갖춘 공유 특징 다중 작업 학습(MTL) 아키텍처를 분석하고, 태스크 간 데이터 정렬이 전이(transfer)에 결정적으로 영향을 미친다는 점을 보여주며, 공분산 정렬과 SVD 기반 가중치를 제안하여 MTL 및 전이 성능을 향상시킨다.

ABSTRACT

We investigate multi-task learning approaches that use a shared feature representation for all tasks. To better understand the transfer of task information, we study an architecture with a shared module for all tasks and a separate output module for each task. We study the theory of this setting on linear and ReLU-activated models. Our key observation is that whether or not tasks' data are well-aligned can significantly affect the performance of multi-task learning. We show that misalignment between task data can cause negative transfer (or hurt performance) and provide sufficient conditions for positive transfer. Inspired by the theoretical insights, we show that aligning tasks' embedding layers leads to performance gains for multi-task training and transfer learning on the GLUE benchmark and sentiment analysis tasks; for example, we obtain a 2.35% GLUE score average improvement on 5 GLUE tasks over BERT-LARGE using our alignment method. We also design an SVD-based task reweighting scheme and show that it improves the robustness of multi-task training on a multi-label image dataset.

연구 동기 및 목표

다중 작업 학습이 공유 표현으로 작동할 때 개인 작업에 도움이 되는지 해를 주는지 이해한다.
모델 용량, 작업 공분산, 최적화가 작업 간 전이에 어떤 영향을 미치는지 특성화한다.
데이터 정렬 고려 하에서 MTL의 효과와 강건성을 개선하기 위한 실용적 방법을 개발한다.
양의 전이에 대한 이론적 조건과 정렬 및 재가중을 위한 실용 알고리즘을 제공한다.

제안 방법

공유 모듈 B와 각 태스크의 A_i(출력 모듈) 아키텍처를 통해 손실 함수가 sum_i L(g(X_i B) A_i, y_i)로 정의되는 구조를 연구한다.
손실에 태스크별 데이터 크기의 차이를 반영하기 위해 손실에 α_i라는 태스크별 가중치를 도입한다.
공유 용량(r), 태스크 공분산(X_i^T X_i), 그리고 태스크별 가중치(alpha_i)에 초점을 맞춘 선형 및 ReLU 활성화 모델의 이론을 개발한다.
태스크 간 정렬을 정량화하기 위한 태스크 공분산과 공분산 유사도 점수를 정의한다.
학습 중 태스크 공분산을 맞추기 위한 정렬 행렬 R_i를 삽입하는 정렬 알고리즘 1(공분산 정렬)을 제안한다.
특히 레이블 노이즈 하에서 견고성을 높이기 위한 SVD 기반 태스크 재가중 Scheme을 제안한다.

실험 결과

연구 질문

RQ1공유 표현으로의 다중 작업 학습이 태스크 간 긍정적 전이를 유발하는 때와 부정적 전이를 유발하는 때는 언제인가?
RQ2공유 용량, 태스크 공분산, 태스크별 가중치가 선형 및 ReLU 설정에서 전이 성능에 어떤 영향을 미치는가?
RQ3태스크 임베딩 정렬 및 재가중을 설계해 MTL 및 전이의 강건성을 개선할 실용적 방법을 설계할 수 있는가?
RQ4정렬 및 재가중 기법이 GLUE 및 감정 분석 데이터셋과 같은 벤치마크에서 실제로 개선으로 이어지는가?
RQ5레이블 노이즈와 전이 학습 시나리오에서 이 방법들은 얼마나 강건한가?

주요 결과

태스크 임베딩 층의 공분산을 맞추면 GLUE(5개 태스크에서 BERT_LARGE를 사용한 평균 GLUE 점수 2.35% 개선)에서 성능이 향상된다.
공분산 정렬은 감정 분석 태스크에서도 최대 2.5% 정확도 향상으로 전이 학습을 개선한다.
SVD 기반 태스크 재가중 스킴은 ChestX-ray14 멀티라벨 데이터셋에서 다중 작업 학습의 견고성을 평균 0.4%의 AUC 향상으로 개선한다.
공유 모듈 용량은 전달을 가능하게 하려면 독립된 태스크 용량의 합보다 작아야 한다; 용량이 너무 크면 전이가 생기지 않는다.
이론은 태스크 공분산과 샘플 크기에 따라 긍정적 전이에 대한 충분 조건을 제공하고, 공분산 유사도에 대한 지표를 제시한다.
실험적 차가움 분석은 공분산 정렬이 CNN/MLP 및 LSTM 기반에서 성능을 향상시킴을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.