QUICK REVIEW

[논문 리뷰] Multi-Task Learning with Deep Neural Networks: A Survey

Michael Crawshaw|arXiv (Cornell University)|2020. 09. 10.

Domain Adaptation and Few-Shot Learning참고 문헌 168인용 수 401

한 줄 요약

깊은 다중 작업 학습(MTL)에 대한 포괄적 고찰로, 아키텍처, 최적화 및 작업 간 관계 학습을 다루며 NLP, 비전, RL 관점 및 벤치마크 요약을 제공합니다.

ABSTRACT

Multi-task learning (MTL) is a subfield of machine learning in which multiple tasks are simultaneously learned by a shared model. Such approaches offer advantages like improved data efficiency, reduced overfitting through shared representations, and fast learning by leveraging auxiliary information. However, the simultaneous learning of multiple tasks presents new design and optimization challenges, and choosing which tasks should be learned jointly is in itself a non-trivial problem. In this survey, we give an overview of multi-task learning methods for deep neural networks, with the aim of summarizing both the well-established and most recent directions within the field. Our discussion is structured according to a partition of the existing deep MTL techniques into three groups: architectures, optimization methods, and task relationship learning. We also provide a summary of common multi-task benchmarks.

연구 동기 및 목표

깊은 MTL의 설계, 도전과제 및 진전에 대해 요약한다.
MTL 방법을 아키텍처, 최적화, 작업 관계 학습으로 분류한다.
공유 구성요소와 작업 특화 구성요소의 균형을 이루어 부정적 전이를 줄이는 아키텍처를 강조한다.
최적화 전략과 작업 관계가 어떻게 학습되고 활용되는지 논의한다.
도메인 간 일반적인 MTL 벤치마크에 대한 개요를 제공한다.

제안 방법

MTL 기법을 아키텍처 설계, 최적화 방법, 작업 관계 학습으로 분류한다.
아키텍처 템플릿(공유 트렁크, 교호, 예측 증류, 작업 라우팅, 단일 태스크 수행)과 도메인별 변형(비전, NLP, RL)을 설명한다.
주의 모듈, 게이팅, 융합 등의 교차 작업 간 정보 흐름 전략을 설명한다(예: Cross-Stitch, NDDR-CNN).
부정적 전이를 완화하기 위한 최적화 접근법을 요약한다. 여기에는 적대적 특징 분리 및 계층적/연쇄적 감독이 포함된다.
작업 관계 및 표현(임베딩, 전이 친화도)의 통합과 도메인 특화 적응(BERT 기반 MT-DNN)을 논의한다.
CV, NLP, RL에서의 다중 작업 벤치마크 및 도메인별 적용을 검토한다.

실험 결과

연구 질문

RQ1여러 작업 간에 효과적인 공유 표현을 가능하게 하는 설계 및 메커니즘은 무엇인가?
RQ2최적화 전략과 손실 구성은 심층 MTL에서 부정적 전이를 어떻게 완화하는가?
RQ3작업 관계를 학습하고 활용하여 공동 성능을 향상시키는 메커니즘은 무엇인가?
RQ4비전, NLP, RL 전반에서 지배적인 벤치마크 및 평가 관행은 무엇인가?
RQ5트랜스포머 기반과 다 modality 접근 방식이 심층 MTL 아키텍처에 어떤 영향을 주었는가?

주요 결과

공유 트렁크 아키텍처, 교호, 및 작업 특화 모듈이 정보 공유를 균형 있게 하여 부정적 전이를 줄인다.
예측 증류 및 다중 스케일 작업 상호작용이 관련 작업의 성능을 향상시킬 수 있다.
적대적 및 직교성 기반 분리가 작업 특화 대 공유 특징 표현을 강제할 수 있다.
작업 라우팅 층은 다수의 작업 간 확장 가능한 공유를 가능하게 하며, 전통적 Cross-Stitch 네트워크에 비해 성능 향상을 보인다.
BERT 기반 공유 임베딩(MT-DNN)이 발표 시점에 다수의 GLUE 작업에서 최첨단을 달성했다.
계단식 감독과 계층적 작업 학습이 NLP에서 저수준에서 고수준 작업의 통합을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.