QUICK REVIEW

[논문 리뷰] Supervised Contrastive Learning for Pre-trained Language Model Fine-tuning

Beliz Gunel, Jingfei Du|arXiv (Cornell University)|2020. 11. 03.

Topic Modeling참고 문헌 60인용 수 60

한 줄 요약

이 논문은 프리트레인된 언어 모델의 표준 미세조정 목표에 감독형 대조학습 항을 추가하여 few-shot GLUE 성능, 노이즈 데이터에 대한 로버스트성, 그리고 추가 데이터나 아키텍처 변화 없이 관련 작업으로의 일반화를 개선한다.

ABSTRACT

State-of-the-art natural language understanding classification models follow two-stages: pre-training a large language model on an auxiliary task, and then fine-tuning the model on a task-specific labeled dataset using cross-entropy loss. However, the cross-entropy loss has several shortcomings that can lead to sub-optimal generalization and instability. Driven by the intuition that good generalization requires capturing the similarity between examples in one class and contrasting them with examples in other classes, we propose a supervised contrastive learning (SCL) objective for the fine-tuning stage. Combined with cross-entropy, our proposed SCL loss obtains significant improvements over a strong RoBERTa-Large baseline on multiple datasets of the GLUE benchmark in few-shot learning settings, without requiring specialized architecture, data augmentations, memory banks, or additional unsupervised data. Our proposed fine-tuning objective leads to models that are more robust to different levels of noise in the fine-tuning training data, and can generalize better to related tasks with limited labeled data.

연구 동기 및 목표

교차 엔트로피 손실을 넘어 미세조정의 일반화 및 안정성 향상을 목표로 한다.
미세조정 중 같은 클래스의 샘플들 간의 유사성을 활용하고 다른 클래스 간의 차이를 대비한다.
분류를 위한 감독 대조 손실을 교차 엔트로피와 결합한 통합 손실을 개발한다.

제안 방법

다중 클래스 분류를 위해 합동 손실 L = (1 - λ) L_CE + λ L_SCL를 제안한다.
L_CE는 모델 출력에 대한 표준 교차 엔트로피 손실이다.
L_SCL은 인코더 공간에서 같은 클래스의 예를 함께 모으고 다른 클래스의 예를 서로 멀어지게 하며, 온도 τ와 L2 정규화된 표현을 사용한다.
인코더 Φ(x)는 최종 은닉층으로부터 L2 정규화된 표현을 출력한다(CLS 토큰 for BERT류 모델).
작업별로 λ와 τ를 조정한다; 실험 결과 많은 설정에서 τ = 0.3 및 λ = 0.9가 유리하다.

실험 결과

연구 질문

RQ1감독형 대조항이 적은 데이터 환경에서 프리트레인 언어 모델의 미세조정을 개선할 수 있는가?
RQ2L_SCL과 교차 엔트로피를 결합하면 미세조정 중 노이즈가 있는 레이블 데이터에 대한 로버스트성을 더 높일 수 있는가?
RQ3제안된 목표함수가 GLUE 과제 전반에 걸쳐 단일 문장 및 문장 쌍 NLP 작업 모두에 유익한가?
RQ4이 접근법이 라벨링 데이터가 제한된 관련 작업으로의 일반화를 향상시키는가?

주요 결과

소수 샷 설정에서 CE+SCL은 SST-2, QNLI, MNLI에서 RoBERTa-Large의 성능을 향상시키며, N=20일 때 QNLI에서 최대 10.7포인트 향상이다.
20, 100, 1000개의 레이블 샘플에 대해 CE+SCL은 CE보다 일관된 이점을 보이며, 예를 들어 20개 예제에서 MNLI 3.4포인트, SST-2 2.2포인트의 이익; 더 많은 데이터일수록 이득은 줄어든다.
노이즈가 큰 미세조정 데이터에 대한 강건성을 제공하여, 높은 노이즈 수준(T=0.7)에서 MNLI를 최대 7포인트 개선했고 QNLI에서 4.2포인트를 달성했다(T=0.9).
레이블 데이터가 제한된 관련 작업으로의 일반화도 향상시키며, 예를 들어 Amazon-2에서 CE 단독 대비 2.9포인트 이득 및 소수 샷 전이에서 분산 감소.
전체 GLUE에서 CE+SCL은 MRPC(3.1포인트) 및 QNLI(3.5포인트)에서 유의미한 이득을 주고 여섯 과제 평균 1.2포인트의 개선을 보이며, 더 큰 배치 크기가 이득을 확대한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.