[논문 리뷰] CLEAR: Contrastive Learning for Sentence Representation
CLEAR는 네 문장 수준의 대조 학습 손실을 네 가지 증가 기법(단어/구 삭제, 재배열, 동의어 치환)과 MLM 외에 사용하여 트랜스포머를 사전 학습시키고 GLUE 및 SentEval 성능을 향상시킵니다. 서로 다른 증가 기법은 작업별 이점을 제공하며 더 큰 배치 크기와 대조 손실 모두가 이점을 가져옵니다.
Pre-trained language models have proven their unique powers in capturing implicit language features. However, most pre-training approaches focus on the word-level training objective, while sentence-level objectives are rarely studied. In this paper, we propose Contrastive LEArning for sentence Representation (CLEAR), which employs multiple sentence-level augmentation strategies in order to learn a noise-invariant sentence representation. These augmentations include word and span deletion, reordering, and substitution. Furthermore, we investigate the key reasons that make contrastive learning effective through numerous experiments. We observe that different sentence augmentations during pre-training lead to different performance improvements on various downstream tasks. Our approach is shown to outperform multiple existing methods on both SentEval and GLUE benchmarks.
연구 동기 및 목표
- 단어 수준 목표를 넘어 더 나은 문장 표현 학습 동기를 제시한다.
- 자연어 처리에서 대조 학습에 적합한 문장 수준 데이터 증가 기법을 조사한다.
- 노이즈에 강한 문장 표현을 학습하기 위해 MLM과 대조 손실의 결합으로 트랜스포머를 처음부터 사전 학습한다.
- 다양한 증가 기법이 다운스트림 작업 성능과 견고성에 미치는 영향을 보여준다.
제안 방법
- CLEAR를 제안한다: 인코더 f(·)와 투사 헤드 g(·), 그리고 증가된 문장 쌍에 적용된 대조 손실 L_CL.
- 집합 A의 증가를 사용하여 각 문장의 두 가지 증가된 뷰를 생성한다: 단어 삭제, 구/범위 삭제, 동의어 치환, 재배열.
- 미니배치 내 양의 쌍을 코사인 유사도와 온도 τ를 사용한 SimCLR 스타일 손실로 비교하여 L_CL을 계산한다.
- L_MLM과 L_CL을 결합하여 L_total = L_MLM + L_CL로 처음부터 사전 학습한다.
- 문장 표현을 평가하기 위해 GLUE 및 SentEval 벤치마크를 사용한다.
- CL 손실의 효과와 배치 크기의 차이를 구분하기 위한 차등 실험을 수행하고 어떤 증가 기법이 어떤 작업에 이득을 주는지 분석한다.
실험 결과
연구 질문
- RQ1문장 수준의 대조 학습이 신중하게 설계된 증가 기법과 함께 단어 수준 목표보다 더 나은 문장 표현을 제공하는가?
- RQ2다른 다운스트림 작업에서 어떤 증가 전략(삭제, 구 삭제, 치환, 재배열)이 이점을 제공하는가?
- RQ3 MLM과 CL의 결합이 Scratch에서의 MLM 단독 또는 CL 단독과 비교해 어떤 차이가 있는가?
- RQ4배치 크기와 대조 목표 각각이 관찰된 개선에 얼마나 기여하는가?
- RQ5CLS 토큰 표현이나 평균 풀링은 대조 학습과 상호 작용하여 다운스트림 성능에 영향을 미치는가?
주요 결과
| 방법 | MNLI | QNLI | QQP | RTE | SST-2 | MRPC | CoLA | STS | 평균 |
|---|---|---|---|---|---|---|---|---|---|
| BERT-base | 84.0 | 89.0 | 89.1 | 61.0 | 93.0 | 86.3 | 57.3 | 89.5 | 81.2 |
| RoBERTa-base | 87.2 | 93.2 | 88.2 | 71.8 | 94.4 | 87.8 | 56.1 | 89.4 | 83.5 |
| MLM+del-word | 86.8 | 93.0 | 90.2 | 79.4 | 94.2 | 89.7 | 62.1 | 90.5 | 85.7 |
| MLM+del-span | 87.3 | 92.8 | 90.1 | 79.8 | 94.4 | 89.9 | 59.8 | 90.3 | 85.6 |
| MLM+subs+del-word | 87.3 | 93.1 | 90.0 | 73.3 | 93.7 | 90.2 | 62.1 | 90.1 | 85.0 |
| MLM+subs+del-span | 87.0 | 93.4 | 90.3 | 74.4 | 94.3 | 90.5 | 63.3 | 90.5 | 85.5 |
| MLM+del-word+reorder | 87.0 | 92.7 | 89.5 | 76.5 | 94.5 | 90.6 | 59.1 | 90.4 | 85.0 |
| MLM+del-span+reorder | 86.7 | 92.9 | 90.0 | 78.3 | 94.5 | 89.2 | 64.3 | 89.8 | 85.7 |
- CLEAR로 사전 학습된 모델은 GLUE 및 SentEval 벤치마크에서 RoBERTa 및 BERT 기준선을 능가한다.
- 특정 증가 기법들(예: MLM+del-word, MLM+del-span, MLM+del-span+reorder)은 RoBERTa 대비 8개 GLUE 작업에서 평균 +2.2%, 7개 SentEval STS 작업에서 평균 +5.7%의 이점을 보인다(초록 및 결과에서)
- 다른 증가 기법은 서로 다른 작업에 이점을 제공한다; 예를 들어 MLM+subs+del-span은 QQP 및 STS에서 우수하고, MLM+del-span은 MNLI, QNLI, RTE와 같은 추론 작업의 성능을 개선한다.
- 성능 향상은 더 큰 배치 크기와 대조 손실 둘 다에서 기인하며 배치 크기만으로 설명되지 않는다.
- CLS 토큰 임베딩은 SentEval 평가에서 평균 풀링보다 대조 학습의 이득을 더 많이 받는 경향이 있다.
- CL을 추가하면 STS 작업의 성능이 크게 향상되어 비슷한 문장 쌍의 정렬이 개선되었음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.