QUICK REVIEW

[논문 리뷰] DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations

John Giorgi, Osvald Nitski|arXiv (Cornell University)|2020. 06. 05.

Topic Modeling참고 문헌 78인용 수 97

한 줄 요약

DeCLUTR은 인접한 텍스트에서 추출한 앵커–양성(span)을 대조하여 보편적인 문장 임베딩을 학습하는 자기지도, 대조적 목표를 도입하고, MLM 프리트레이닝을 확장하여 강력한 비지도 문장 표현을 생성한다.

ABSTRACT

Sentence embeddings are an important component of many natural language processing (NLP) systems. Like word embeddings, sentence embeddings are typically learned on large text corpora and then transferred to various downstream tasks, such as clustering and retrieval. Unlike word embeddings, the highest performing solutions for learning sentence embeddings require labelled data, limiting their usefulness to languages and domains where labelled data is abundant. In this paper, we present DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations. Inspired by recent advances in deep metric learning (DML), we carefully design a self-supervised objective for learning universal sentence embeddings that does not require labelled training data. When used to extend the pretraining of transformer-based language models, our approach closes the performance gap between unsupervised and supervised pretraining for universal sentence encoders. Importantly, our experiments suggest that the quality of the learned embeddings scale with both the number of trainable parameters and the amount of unlabelled training data. Our code and pretrained models are publicly available and can be easily adapted to new domains or used to embed unseen text.

연구 동기 및 목표

레이블링된 데이터 없이 보편적 문장 임베딩 학습을 촉진한다.
문장 인코더를 학습시키기 위해 심층 메트릭 학습(DML)에 영감을 받은 자기지도 목표를 설계한다.
대조 학습을 MLM 프리트레이닝과 결합하는 것이 하류 문장 태스크를 향상시킨다는 것을 보여준다.
모델 크기와 데이터의 확장 가능성을 입증한다.
도메인 전이를 위한 오픈 소스 코드와 사전 학습 모델을 제공한다.

제안 방법

고정 길이 임베딩을 얻기 위해 f(·)인 트랜스포머 인코더와 g(·)인 평균 풀링 풀러를 사용한다.
미니배치의 다른 스팬을 음수로 간주하면서 앵커와 양의 스팬을 함께 묶도록 대조 NT-Xent 손실로 학습한다.
문서 내의 인근 텍스트에서 앵커와 양의 스팬을 샘플링한다; 앵커 스팬은 부분화된/전역 뷰 학습을 가능하게 하기 위해 양의보다 길다.
제안된 대조 목표를 MLM 손실과 함께 기존 MLM 모델(DistilRoBERTa 또는 RoBERTa-base)의 프리트레이닝을 계속한다.
스팬 샘플링은 베타 분포 길이를 사용하여 문장 길이에서 단락 길이까지의 텍스트를 포괄하며, 앵커와 양의는 같은 문서에서 뽑힌다.
성능과 언어적 특성을 평가하기 위해 18개의 다운스트림 작업과 10개의 프로빙 작업에서 SentEval를 사용해 평가한다.
오픈 소스 코드와 사전학습 모델은 프로젝트 저장소에서 공개된다.

실험 결과

연구 질문

RQ1레이블이 있는 데이터 없이도 자기지도 대조 목표가 보편적 문장 임베딩을 생성할 수 있는가?
RQ2대조 목표를 이용한 MLM 프리트레이닝 확장이 basline 프리트레이닝 모델에 비해 하류 문장 태스크에 어떤 영향을 미치는가?
RQ3학습 임베딩의 품질을 최적화하는 건축적 선택과 데이터 규모는 무엇인가?
RQ4학습된 임베딩이 프로빙 태스크로 측정한 언어 정보를 유지하는가?

주요 결과

DeCLUTR-base 및 DeCLUTR-small 사전학습 모델은 기본 트랜스포머보다 평균 하류 SentEval 성능을 크게 향상시킨다(예: DeCLUTR-base Avg 79.10 vs Transformer-base Avg 72.19).
DeCLUTR-base 는 다수의 다운스트림 태스크에서 레이블 없는 데이터로 감독/세미-감독 기반의 기준과 견주거나 능가한다.
프로빙 태스크에서 DeCLUTR 모델은 기저의 사전학습 모델과 비교해 언어 정보를 보존하지만, 일부 감독 미세조정 대안과는 다르다.
모델 크기와 비표지 학습 데이터 양에 따라 성능이 확장되며, 더 큰 모델이나 더 많은 데이터로 추가 이득이 기대된다.
이 방법은 SentEval 태스크에서 기존의 비지도 기준(예: QuickThoughts)과 비교해 경쟁력이 있으며, 경우에 따라 이를 초과한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.