QUICK REVIEW

[논문 리뷰] CoNT: Contrastive Neural Text Generation

Chenxin An, Jiangtao Feng|arXiv (Cornell University)|2022. 05. 29.

Natural Language Processing Techniques인용 수 22

한 줄 요약

CoNT는 자가 생성된 부정 샘플, N-pairs 손실, 디코딩에서 학습된 시퀀스 유사도를 활용하는 신경 텍스트 생성용 대조 학습 프레임워크를 도입하여, 여러 생성 작업에서 최첨단 성능을 달성합니다.

ABSTRACT

Recently, contrastive learning attracts increasing interests in neural text generation as a new solution to alleviate the exposure bias problem. It introduces a sequence-level training signal which is crucial to generation tasks that always rely on auto-regressive decoding. However, previous methods using contrastive learning in neural text generation usually lead to inferior performance. In this paper, we analyse the underlying reasons and propose a new Contrastive Neural Text generation framework, CoNT. CoNT addresses bottlenecks that prevent contrastive learning from being widely adopted in generation tasks from three aspects -- the construction of contrastive examples, the choice of the contrastive loss, and the strategy in decoding. We validate CoNT on five generation tasks with ten benchmarks, including machine translation, summarization, code comment generation, data-to-text generation and commonsense generation. Experimental results show that CoNT clearly outperforms the conventional training framework on all the ten benchmarks with a convincing margin. Especially, CoNT surpasses previous the most competitive contrastive learning method for text generation, by 1.50 BLEU on machine translation and 1.77 ROUGE-1 on summarization, respectively. It achieves new state-of-the-art on summarization, code comment generation (without external data) and data-to-text generation.

연구 동기 및 목표

자가회귀 텍스트 생성에서 노출 편향을 완화하기 위한 대조 학습의 동기를 부여한다.
모형 예측에서 대조 음수(contrastive negatives)를 샘플링하고, 시퀀스 수준 점수를 활용한 N-pairs 마진 손실을 사용하며, 디코딩에 학습된 유사도 점수를 통합하는 프레임워크를 설계한다.
다양한 생성 작업에서 MLE 기반 기준선 및 기존 대조 방법들보다 향상을 입증한다.
여러 벤치마크에서 새로운 최첨단 결과를 달성하고 추론 시에도 효율성을 유지하는 CoNT를 보여준다.

제안 방법

다양한 빔 검색을 통해 모델 자체의 예측에서 음수/대조 샘플을 샘플링한다.
시퀀스 수준 오라클 점수(예: BLEU)와 소스 표현과의 코사인 유사도를 사용하여 대조 샘플을 순위화하는 N-pairs 대조 손실을 채용한다.
마진 기반 손실을 사용: L_N-Pairs = sum max{0, cos(z_x, z_y^-) − cos(z_x, z_y^+) + xi} with xi reflecting rank-based margins.
디코딩에 학습된 유사도 점수를 통합하여 코사인 유사도와 전통적 가능도 간의 혼합을 극대화한다: y* = argmax_y { alpha * cos(z_x, z_y) + (1 - alpha) * p(y|x)}.
자가 생성한 음수를 생성하고 이를 배치에서 샘플된 음수와 결합하여 대조 집합을 구성한다.
추론 절차를 제공하여 디코딩 중 시퀀스 유사도와 언어 모델 가능도 간의 균형을 맞춘다.

실험 결과

연구 질문

RQ1모델 자체의 예측에서 샘플 생성을 통한 음수가 배치 단독 음수보다 더 정보적 인가를 제공하는가?
RQ2시퀀스 수준 점수와 함께한 N-pairs 마진 손실이 대조 텍스트 생성에서 InfoNCE를 능가하는가?
RQ3학습된 시퀀스 유사도를 디코딩에 통합하면 표준 MLE 손실보다 생성 품질을 향상시키는가?
RQ4CoNT가 번역, 요약, 코드 주석 생성, 데이터-텍스트 변환, 상식 기반 생성에서 어떻게 작동하는가?
RQ5전통적인 MLE 및 기존 대조 방법과 비교할 때 CoNT를 적용하는 학습 효율성의 트레이드오프는 무엇인가?

주요 결과

CoNT는 MLE 기준선을 크게 향상시키고 이전 대조 방법들을 다수의 벤치마크에서 능가한다.
WMT’16 Ro-En에서 N-Pairs 손실 및 디코딩 유사도를 갖춘 CoNT는 30.91 BLEU를 달성해 이전의 최적 대조 방법보다 1.50 BLEU 높다.
IWSLT’14 De-En에서 시퀀스 유사도 디코딩은 일반 빔 검색 대비 최대 0.86 BLEU의 이득을 제공한다.
XSum 요약에서 PEGASUS 베이스를 사용한 CoNT가 새로운 최첨단 결과를 확립한다.
코드 주석 생성(CodeT5 백본)에서 CoNT는 Python 및 Java에 대해 BLEU를 20.56으로 개선한다.
데이터-텍스트(WikiBio)에서 CoNT는 R2D2를 상회하고 더 큰 T5 변형에 근접하며 기본 모델을 사용한다.
상식 생성(CommonGen)에서 T5-base를 사용한 CoNT가 CIDEr 및 SPICE 지표에서 다수의 더 큰 기준선보다 우수하다.
데이터-텍스트 및 상식 생성에서 대형 사전 학습 모델(T5-large/3B)과 동등한 성능을 보이며도 추론 시 효율성을 유지한다.
인간 평가에서 CoNT의 출력이 번역 및 요약 작업에서 MLE 및 Naive CL보다 선호되는 경향을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.