Skip to main content
QUICK REVIEW

[논문 리뷰] A Survey on Transfer Learning in Natural Language Processing

Zaid Alyafeai, Maged S. Al-shaibani|arXiv (Cornell University)|2020. 05. 31.
Topic Modeling참고 문헌 79인용 수 53
한 줄 요약

이 설문조사는 NLP에서의 전이 학습 발전을 검토하고, 분류 체계를 제안하며, 사전 학습된 언어 모델이 작업 간 및 도메인 간 지식 전이를 어떻게 가능하게 하는지 요약합니다.

ABSTRACT

Deep learning models usually require a huge amount of data. However, these large datasets are not always attainable. This is common in many challenging NLP tasks. Consider Neural Machine Translation, for instance, where curating such large datasets may not be possible specially for low resource languages. Another limitation of deep learning models is the demand for huge computing resources. These obstacles motivate research to question the possibility of knowledge transfer using large trained models. The demand for transfer learning is increasing as many large models are emerging. In this survey, we feature the recent transfer learning advances in the field of NLP. We also provide a taxonomy for categorizing different transfer learning approaches from the literature.

연구 동기 및 목표

  • 데이터 및 계산 자원 제약이 큰 심층 모델에서 NLP의 전이 학습 연구를 촉진한다.
  • NLP에서 전이 학습 접근법을 분류하기 위한 분류 체계를 제공한다.
  • 최근 언어 모델 주도 전이 학습의 발전과 그 응용을 요약한다.
  • NLP 전이 학습에 사용되는 데이터셋과 평가 설정을 강조한다.

제안 방법

  • 정립된 분류 체계(전이 학습의 전이적(transductive)와 귀납적(inductive) 전이)를 따라 문헌을 검토하고 분류한다.
  • 모델 아키텍처(RNN, CNN, 주의 기반 Transformer)와 전이 학습에서의 역할을 설명한다.
  • 전이 기법의 분류 체계: 순차적 미세조정(sequential fine-tuning), 어댑터 모듈, 특징 기반 표현, 제로샷 접근법을 제시한다.
  • 대표적인 사전학습 언어 모델과 그 학습 목표를 요약한다(LM, MLM, NSP, seq2seq, XL/encoder–decoder 변형).
  • NLP에서 전이 학습에 일반적으로 사용되는 데이터셋과 벤치마크를 논의한다(예: SQuAD, GLUE, SuperGLUE).
  • 선정된 연구들로부터 방법을 전이 설정에 매핑하는 것을 종합한다.

실험 결과

연구 질문

  • RQ1가장 효과적인 NLP 작업을 위한 전이 학습 패러다임은 무엇인가(전이적/귀납적)?
  • RQ2사전 학습된 언어 모델은 작업 간 및 도메인 간 지식 전이를 어떻게 가능하게 하는가?
  • RQ3NLP에서 학습 전이의 핵심 전략(미세조정, 어댑터, 특징 표현, 제로샷)은 무엇인가?
  • RQ4NLP 전이 학습의 진행과 한계를 가장 잘 반영하는 데이터셋과 벤치마크는 무엇인가?

주요 결과

  • 언어 모델은 NLP 작업 간의 상당한 지식 전이를 가능하게 하도록 발전해왔습니다.
  • Transformer 기반의 사전학습 모델(BERT, GPT-2, ELMo, XLNet 등)은 단방향, 쌍방향, 마스킹, seq2seq, 인코더–디코더 등의 다양한 전이 능력을 정의합니다.
  • 미세조정, 어댑터, 특징 기반 표현은 데이터 효율성이 varying한 중심 전이 기술입니다.
  • 도메인 적응 및 다언어 전이는 저자원 언어에서 주목할 만한 이점을 보이는 활발한 연구 영역으로 남아 있습니다.
  • 범용 미세조정과 강력한 사전학습 표현은 여러 NLP 벤치마크에서 최첨단 성능을 달성합니다.
  • 장기 의존성 및 맥락 표현 개선(예: Transformer-XL, RoBERTa)은 전이 성능을 향상시킵니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.