Skip to main content
QUICK REVIEW

[논문 리뷰] Transformer is All You Need: Multimodal Multitask Learning with a Unified Transformer

Ronghang Hu, Amanpreet Singh|arXiv (Cornell University)|2021. 02. 22.
Topic Modeling인용 수 26
한 줄 요약

UniT는 하나의 공유 인코더-디코더 구조와 작업별 헤드를 사용하여 시각, 언어 및 다중모달 추론을 포함한 일곱 가지 다양한 작업을 종합적으로 학습하는 통합 트랜스포머 아키텍처를 제안한다. 여덟 개의 데이터셋을 통해 엔드 투 엔드로 훈련함으로써 UniT는 작업별 특화 모델과 비교할 만한 성능을 달성하면서도 컴act하고 파rameter 효율적인 아키텍처를 사용한다.

ABSTRACT

We propose UniT, a Unified Transformer model to simultaneously learn the most prominent tasks across different domains, ranging from object detection to language understanding and multimodal reasoning. Based on the transformer encoder-decoder architecture, our UniT model encodes each input modality with an encoder and makes predictions on each task with a shared decoder over the encoded input representations, followed by task-specific output heads. The entire model is jointly trained end-to-end with losses from each task. Compared to previous efforts on multi-task learning with transformers, we share the same model parameters to all tasks instead of separately fine-tuning task-specific models and handle a much higher variety of tasks across different domains. In our experiments, we learn 7 tasks jointly over 8 datasets, achieving comparable performance to well-established prior work on each domain under the same supervision with a compact set of model parameters. Code will be released in MMF at https://mmf.sh.

연구 동기 및 목표

  • 다양한 도메인의 여러 다양한 작업을 하나의 아키텍처를 사용하여 종합적으로 학습할 수 있는 통합 딥 러닝 모델을 개발하는 것.
  • 모든 작업 간에 모든 모델 파rameter를 공유함으로써 작업별 특화 모델 미세조정이 필요 없도록 하는 것.
  • 다른 입력 모odal과 출력 형식을 가진 이질적인 작업들에 대해 단일 모델의 엔드 투 엔드 훈련을 가능하게 하는 것.
  • 개별 작업에서 경쟁적인 성능를 달성하면서도 모델의 컴act성과 파rameter 효율성을 유지하는 것.
  • 다중모달 및 교차 도메인 환경에서 통합 다중작업 학습의 가능성과 효과성을 입증하는 것.

제안 방법

  • 모델은 어떤 모달리티(예: 이미지, 텍스트)에서 온 입력을 통합된 맥락적 표현으로 변환하기 위해 공유된 트랜스포머 인코더를 사용한다.
  • 공유된 디코더는 인코딩된 표현에 주의를 기울이고 작업별 출력 헤드를 사용하여 각 작업의 예측을 생성한다.
  • 모든 작업은 각각의 손실 함수와 함께 함께 훈련되어 전체 모델의 엔드 투 엔드 최적화가 가능하다.
  • 각 모달리티를 별도로 인코딩한 후 공유된 인코더-디코더 경로에서 융합함으로써 모델은 다중모달 입력을 지원한다.
  • 모델은 시각, 언어 및 시각-언어 작업을 포함한 여러 데이터셋에서 훈련되며, 각 작업의 지도 정보는 공동 최적화 과정에서 사용된다.
  • 작업 간 파라미터 공유로 인해 중복이 최소화된 컴act한 모델 아키텍처가 되어 효율성과 일반화 능력이 향상된다.

실험 결과

연구 질문

  • RQ1하나의 트랜스포머 모델이 시각, 언어 및 다중모달 추론 도메인의 다양한 작업을 효과적으로 학습할 수 있는가?
  • RQ2작업 간 파라미터 공유가 작업별 특화 미세조정 대비 성능에 어떤 영향을 미치는가?
  • RQ3통합 아키텍처가 다양한 모달리티를 처리하면서도 개별 작업에서 경쟁적인 성능를 유지할 수 있는 정도는 어느 정도인가?
  • RQ4공동 훈련이 모델 일반화 및 파라미터 효율성에 어떤 영향을 미치는가?
  • RQ5특화된 아키텍처 없이도 통합 모델이 이질적인 데이터셋과 작업 유형에서 뛰어난 성능를 달성할 수 있는가?

주요 결과

  • UniT는 평가된 일곱 가지 작업 각각에서 잘 정립된 작업별 특화 모델과 비교해 성능가능성을 확보한다.
  • 모델은 이미지 분류, 객체 검출, 시각질문응답, 언어 이해를 포함한 여덟 가지 이질적인 데이터셋에서 강력한 성능를 유지한다.
  • 파라미터 공유 덕분에 개별 작업마다 별도의 모델을 훈련시키는 데서 비롯되는 중복을 방지하는 컴act한 모델 아키텍처를 구현한다.
  • 다양한 작업 간 공동 엔드 투 엔드 훈련은 효과적인 지식 전이와 도메인 간 강력한 일반화를 이끈다.
  • 통합 아키텍처는 다중모달 및 교차모달 환경에서의 다중작업 학습의 가능성과 확장성을 입증한다.
  • 코드베이스는 MMF를 통해 공개되어 재현성과 통합 다중작업 학습 분야의 향후 연구를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.