QUICK REVIEW

[논문 리뷰] Calibrating Sequence likelihood Improves Conditional Language Generation

Yao Zhao, Misha Khalman|arXiv (Cornell University)|2022. 09. 30.

Topic Modeling인용 수 37

한 줄 요약

논문은 모델의 잠재 공간에서 참조와 일치시키는 세 번째 보정 단계인 SLiC를 도입하여 디코딩 휴리스틱을 제거하고 작업 및 모델 규모 전반에서 품질을 향상시킵니다.

ABSTRACT

Conditional language models are predominantly trained with maximum likelihood estimation (MLE), giving probability mass to sparsely observed target sequences. While MLE trained models assign high probability to plausible sequences given the context, the model probabilities often do not accurately rank-order generated sequences by quality. This has been empirically observed in beam search decoding as output quality degrading with large beam sizes, and decoding strategies benefiting from heuristics such as length normalization and repetition-blocking. In this work, we introduce sequence likelihood calibration (SLiC) where the likelihood of model generated sequences are calibrated to better align with reference sequences in the model's latent space. With SLiC, decoding heuristics become unnecessary and decoding candidates' quality significantly improves regardless of the decoding method. Furthermore, SLiC shows no sign of diminishing returns with model scale, and presents alternative ways to improve quality with limited training and inference budgets. With SLiC, we exceed or match SOTA results on a wide range of generation tasks spanning abstractive summarization, question generation, abstractive question answering and data-to-text generation, even with modest-sized models.

연구 동기 및 목표

MLE로 훈련된 조건부 언어 모델에서 시퀀스 확률이 품질과 정렬되지 않는 보정 격차를 동기부여합니다.
잠재 공간에서 참조와 디코딩된 후보를 정렬하는 실용적인 SLiC 학습 단계를 제안합니다.
SLiC가 요약, QA, 질문 생성, 데이터-텍스트 태스크 전반에서 생성 품질을 향상시키는지 보여줍니다.
모델 규모가 커져도 보정의 이점이 지속되며 디코딩 휴리스틱의 필요를 줄이거나 제거합니다.

제안 방법

학습 데이터에서 미세조정된 모델로부터 m개의 후보 시퀀스를 디코딩합니다.
F-측정치(디코더 상태 기반의 유사도 기반 척도로 정의된 s(y_hat, y_bar; x), 맥락화된 BERTScore 변형에 비유) 를 사용하는 보정 목표 L^{cal}로 학습합니다.
미세조정된 MLE 목적(교차 엔트로피 또는 KL 발산)으로부터 큰 편차를 방지하기 위한 정규화 항 L^{reg}를 사용합니다.
보정 데이터를 대상으로 L = sum_b L^{cal} + lambda L^{reg}를 최적화합니다; 파라미터를 미세조정된 모델에서 초기화합니다.
여러 L^{cal} 옵션(rank, margin, list-wise rank 및 reward)과 두 개의 정규화(L^{reg}의 CE와 KL)를 탐색합니다.
보정 중 빔 탐색과 DBS, 핵 샘플링과 같은 다른 전략을 시도합니다.

실험 결과

연구 질문

RQ1세 번째 보정 단계가 잠재 공간에서 모델의 시퀀스 가능성을 목표 품질과 정렬하여 디코딩 휴리스틱 없이도 생성을 개선할 수 있는가?
RQ2SLiC로 보정된 모델이 요약, 생성형 QA, 질문 생성, 데이터-텍스트와 같은 태스크에서 SOTA를 능가하거나 이를 따라잡는가?
RQ3모델 규모에 따라 보정의 이점이 지속되며 빔 크기, 길이 정규화, 반복 차단과 같은 디코딩 휴리스틱에 대한 의존도를 줄이는가?

주요 결과

데이터셋	이전 SOTA	우리의 미세조정된 (2B)	우리의 보정된 (2B)
CNN/DailyMail	340M a	47.78/23.55/44.57	47.97/24.18/44.88
XSUM	268B c	—/27.1/—	49.77/27.09/42.08
RedditTIFU-long	340M f	28.73/10.12/23.24	32.03/11.13/25.51
SAMSum	20B b	53.64/29.21/44.83	54.37/29.88/45.89

SLiC는 일관되게 모델 품질을 향상시키며 요약, QA, QG, 데이터-텍스트 등 여러 태스크에서 SOTA를 능가하거나 따라잡습니다.
잠재 공간 유사도 기반의 보정 손실이 직접적인 지표 최적화보다 우수하며 디코딩 휴리스틱의 필요를 제거합니다.
모델 크기가 커져도 보정 이점이 지속되며, 같은 추론 예산 하에서 더 작은 보정 모델이 더 큰 비보정 모델을 이길 수 있습니다.
권장 레시피는 당혹 perpex의 체크포인트 선택, 후보 디코딩을 위한 빔 탐색, L^{cal}에 대한 랭크 손실, L^{reg}에 대한 KL 발산을 사용합니다.
보정된 PEGASUS-2B가 8개 데이터셋에서 SOTA를 달성하며 종종 이전 SOTA보다 훨씬 작은 모델로도 달성합니다(예: XSUM, WebNLG-en, CommonGen).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.