Skip to main content
QUICK REVIEW

[논문 리뷰] Efficiently Identifying Task Groupings for Multi-Task Learning

Christopher Fifty, Ehsan Amid|arXiv (Cornell University)|2021. 09. 10.
Domain Adaptation and Few-Shot Learning참고 문헌 52인용 수 29
한 줄 요약

TAG는 한 번의 실행으로 모든 작업을 학습하여 상호 작업 친화도(inter-task affinity)를 gradient의 영향으로 측정한 뒤, 친화도를 최대화하는 작업 그룹을 구성해 더 빠르고 더 나은 다중 작업 성능을 얻는다.

ABSTRACT

Multi-task learning can leverage information learned by one task to benefit the training of other tasks. Despite this capacity, naively training all tasks together in one model often degrades performance, and exhaustively searching through combinations of task groupings can be prohibitively expensive. As a result, efficiently identifying the tasks that would benefit from training together remains a challenging design question without a clear solution. In this paper, we suggest an approach to select which tasks should train together in multi-task learning models. Our method determines task groupings in a single run by training all tasks together and quantifying the effect to which one task's gradient would affect another task's loss. On the large-scale Taskonomy computer vision dataset, we find this method can decrease test loss by 10.0% compared to simply training all tasks together while operating 11.6 times faster than a state-of-the-art task grouping method.

연구 동기 및 목표

  • 다중 작업 학습에서 음의 전이와 과도한 탐색 비용을 피하기 위해 효율적인 작업 그룹화의 필요성을 동기 부여한다.
  • 그라디언트 기반의 룩어헤드 손실을 통해 상호 작업 친화도를 정량화하는 단일 실행 방법을 제안한다.
  • 추론 제약 하에서 작업별 친화도를 최대화하는 다중 작업 그룹을 형성하는 네트워크 선택 알고리즘을 개발한다.
  • 대형 비전 데이터셋(CelebA, Taskonomy)에서 확장성과 효율성을 입증한다.
  • 완만한 볼록성 가정하에서 친화도 기반 그룹화가 왜 대안보다 우수한지 이론적 통찰을 제공한다.

제안 방법

  • 공유 매개변수 업데이트를 얻기 위해 모든 작업을 함께 학습한다.
  • 상호 작업 친화도 Z-i->j를, 작업 i가 공유 매개변수를 업데이트할 때 작업 j의 상대적 진척도(룩어헤드 손실 비율)로 정의한다.
  • 훈련 전반에 걸쳐 매 스텝의 친화도를 평균 내어 학습 수준 점수 hat{Z}_{i→j}를 얻는다.
  • 서비스된 각 작업에 대해 합산 친화도를 최대화하여 k개의 다중 작업 네트워크로 작업을 그룹화한다(단 k ≤ 메모리 예산 b).
  • 특정 조건하에서 alpha-강한 볼록성 및 beta-강한 매끄러움 아래에서, 더 높은 친화도가 더 높은 친화도 작업과 함께 그룹화될 때 주 작업의 손실이 더 낮아진다는 이론적 분석을 제공한다.
  • PCGrad와 같은 추가 학습 증강 여부에 관계없이 TAG를 기본 MTL, STL, 무작위 그룹화, 코사인 유사도 기반 그룹화 및 HOA와 비교한다.

실험 결과

연구 질문

  • RQ1상호 작업 친화도가 단일 학습 실행에서 측정된 값이 유익한 작업 그룹화를 식별하는 데 일치하는가?
  • RQ2매 스텝 친화도 측정이 그룹화 결정에 대한 에포크당 또는 집계 측정보다 더 효과적인가?
  • RQ3TAG가 대규모 비전 벤치마크에서 모든 작업을 공동 학습한 경우, 단일 작업 모델, 및 기존 그룹화 방법 대비 어떻게 성능이 나타나는가?
  • RQ4확인 시점 메모리/지연 예산이 다양해져도 식별된 그룹은 추론 시간에 여전히 효과적인가?
  • RQ5훈련 시 augmentations로 친화도 기반 접근법을 보완하여 성능을 더 향상시킬 수 있는가?

주요 결과

  • Taskonomy에서 TAG는 모든 작업을 함께 학습한 것에 비해 테스트 손실을 최대 10.0%까지 감소시킨다.
  • TAG는 벤치마크에서 최첨단 작업 그룹 방법(HOA)보다 약 11.6배 빠르게 작동한다.
  • CelebA에서 TAG는 MTL, UW, GN, RG를 능가하며 2-, 3-, 4-분할에서 일관된 이점을 보이고 PCGrad로 더 향상될 수 있다.
  • Taskonomy에서 TAG는 MTL(10.0%), GN(7.7%), STL(1.5%), RG(9.5%)에 대해 지속적으로 개선한다.
  • TAG는 HOA에 비해 계산적으로 훨씬 더 효율적이며(보고된 실험에서 예를 들어 22배 더 빠름).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.