Skip to main content
QUICK REVIEW

[논문 리뷰] Supervised Contrastive Learning for Pre-trained Language Model Fine-tuning

Beliz Gunel, Jingfei Du|arXiv (Cornell University)|2020. 11. 03.
Topic Modeling참고 문헌 60인용 수 60
한 줄 요약

이 논문은 프리트레인된 언어 모델의 표준 미세조정 목표에 감독형 대조학습 항을 추가하여 few-shot GLUE 성능, 노이즈 데이터에 대한 로버스트성, 그리고 추가 데이터나 아키텍처 변화 없이 관련 작업으로의 일반화를 개선한다.

ABSTRACT

State-of-the-art natural language understanding classification models follow two-stages: pre-training a large language model on an auxiliary task, and then fine-tuning the model on a task-specific labeled dataset using cross-entropy loss. However, the cross-entropy loss has several shortcomings that can lead to sub-optimal generalization and instability. Driven by the intuition that good generalization requires capturing the similarity between examples in one class and contrasting them with examples in other classes, we propose a supervised contrastive learning (SCL) objective for the fine-tuning stage. Combined with cross-entropy, our proposed SCL loss obtains significant improvements over a strong RoBERTa-Large baseline on multiple datasets of the GLUE benchmark in few-shot learning settings, without requiring specialized architecture, data augmentations, memory banks, or additional unsupervised data. Our proposed fine-tuning objective leads to models that are more robust to different levels of noise in the fine-tuning training data, and can generalize better to related tasks with limited labeled data.

연구 동기 및 목표

  • 교차 엔트로피 손실을 넘어 미세조정의 일반화 및 안정성 향상을 목표로 한다.
  • 미세조정 중 같은 클래스의 샘플들 간의 유사성을 활용하고 다른 클래스 간의 차이를 대비한다.
  • 분류를 위한 감독 대조 손실을 교차 엔트로피와 결합한 통합 손실을 개발한다.

제안 방법

  • 다중 클래스 분류를 위해 합동 손실 L = (1 - λ) L_CE + λ L_SCL를 제안한다.
  • L_CE는 모델 출력에 대한 표준 교차 엔트로피 손실이다.
  • L_SCL은 인코더 공간에서 같은 클래스의 예를 함께 모으고 다른 클래스의 예를 서로 멀어지게 하며, 온도 τ와 L2 정규화된 표현을 사용한다.
  • 인코더 Φ(x)는 최종 은닉층으로부터 L2 정규화된 표현을 출력한다(CLS 토큰 for BERT류 모델).
  • 작업별로 λ와 τ를 조정한다; 실험 결과 많은 설정에서 τ = 0.3 및 λ = 0.9가 유리하다.

실험 결과

연구 질문

  • RQ1감독형 대조항이 적은 데이터 환경에서 프리트레인 언어 모델의 미세조정을 개선할 수 있는가?
  • RQ2L_SCL과 교차 엔트로피를 결합하면 미세조정 중 노이즈가 있는 레이블 데이터에 대한 로버스트성을 더 높일 수 있는가?
  • RQ3제안된 목표함수가 GLUE 과제 전반에 걸쳐 단일 문장 및 문장 쌍 NLP 작업 모두에 유익한가?
  • RQ4이 접근법이 라벨링 데이터가 제한된 관련 작업으로의 일반화를 향상시키는가?

주요 결과

  • 소수 샷 설정에서 CE+SCL은 SST-2, QNLI, MNLI에서 RoBERTa-Large의 성능을 향상시키며, N=20일 때 QNLI에서 최대 10.7포인트 향상이다.
  • 20, 100, 1000개의 레이블 샘플에 대해 CE+SCL은 CE보다 일관된 이점을 보이며, 예를 들어 20개 예제에서 MNLI 3.4포인트, SST-2 2.2포인트의 이익; 더 많은 데이터일수록 이득은 줄어든다.
  • 노이즈가 큰 미세조정 데이터에 대한 강건성을 제공하여, 높은 노이즈 수준(T=0.7)에서 MNLI를 최대 7포인트 개선했고 QNLI에서 4.2포인트를 달성했다(T=0.9).
  • 레이블 데이터가 제한된 관련 작업으로의 일반화도 향상시키며, 예를 들어 Amazon-2에서 CE 단독 대비 2.9포인트 이득 및 소수 샷 전이에서 분산 감소.
  • 전체 GLUE에서 CE+SCL은 MRPC(3.1포인트) 및 QNLI(3.5포인트)에서 유의미한 이득을 주고 여섯 과제 평균 1.2포인트의 개선을 보이며, 더 큰 배치 크기가 이득을 확대한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.