[논문 리뷰] Contrastive Search Is What You Need For Neural Text Generation
이 논문은 대부분의 자동회귀 언어 모델이 16개 언어에 걸쳐 등방성임(작은 영어 GPT-2 변형은 예외)하고, 추가 학습 없이도 대조적 탐색 디코딩이 텍스트 품질을 향상시키며 다른 디코딩 방법에 비해 종종 인간 수준의 성능을 보임을 보여준다.
Generating text with autoregressive language models (LMs) is of great importance to many natural language processing (NLP) applications. Previous solutions for this task often produce text that contains degenerative expressions or lacks semantic consistency. Recently, Su et al. introduced a new decoding method, contrastive search, based on the isotropic representation space of the language model and obtained new state of the art on various benchmarks. Additionally, Su et al. argued that the representations of autoregressive LMs (e.g. GPT-2) are intrinsically anisotropic which is also shared by previous studies. Therefore, to ensure the language model follows an isotropic distribution, Su et al. proposed a contrastive learning scheme, SimCTG, which calibrates the language model's representations through additional training. In this study, we first answer the question: "Are autoregressive LMs really anisotropic?". To this end, we extensively evaluate the isotropy of LMs across 16 major languages. Surprisingly, we find that the anisotropic problem only exists in the two specific English GPT-2-small/medium models. On the other hand, all other evaluated LMs are naturally isotropic which is in contrast to the conclusion drawn by previous studies. Based on our findings, we further assess the contrastive search decoding method using off-the-shelf LMs on four generation tasks across 16 languages. Our experimental results demonstrate that contrastive search significantly outperforms previous decoding methods without any additional training. More notably, on 12 out of the 16 evaluated languages, contrastive search performs comparably with human-level performances as judged by human evaluations. Our code and other related resources are publicly available at https://github.com/yxuansu/Contrastive_Search_Is_What_You_Need.
연구 동기 및 목표
- 자동회귀 LMs가 실제로 비등방성인지와 등방성이 언어 및 모델 규모에 따라 어떻게 달라지는지 평가한다.
- 추가 학습 없이 오픈 엔드 생성, 요약, 코드 생성, 기계 번역에서 대조적 탐색 디코딩을 평가한다.
- 자동 평가 및 인간 평가에서 대조적 탐색을 전통적 디코딩 방법들(탐욕적, 빔, 핵심, top-k)과 비교한다.
- 대조적 탐색의 동작과 그것의 언어별 LM 등방성과의 관계를 분석한다.
제안 방법
- 16개 언어에 걸친 토큰 표현의 자기유사성 및 등방성 지표를 사용하여 등방성을 정량화한다.
- 모델 자신감과 탈변조 페널티를 결합하여 다음 토큰을 선택하는 대조적 탐색 디코딩 공식을 재검토한다(식(3)).
- 영어 및 다중언어 설정의 오픈 엔드 생성, 요약, 코드 생성, 번역에서 자동 지표(diversity, MAUVE, coherence) 및 인간 판단을 사용하여 디코딩 방법을 평가한다.
- 16개 언어에 걸친 광범위한 인간 평가를 수행하여 대조적 탐색과 기준 방법들을 비교한다.
- 대조적 탐색이 등방성과 어떻게 상호작용하는지 및 왜 추가 학습 없이도 작동하는지에 대한 분석을 제공한다.
실험 결과
연구 질문
- RQ1자동회귀 언어 모델이 언어 간에 본질적으로 비등방적인가, 아니면 비등방성은 특정 영어 GPT-2 변형에만 한정된가?
- RQ2대조적 탐색이 추가 학습 없이 여러 작업과 여러 언어에서 텍스트 생성 품질을 향상시킬 수 있는가?
- RQ3언어 모델의 등방성이 대조적 탐색 디코딩 방법의 효과성과 어떤 관계가 있는가?
- RQ4표준 디코딩 방법과 비교했을 때 오픈 엔드 생성, 요약, 코드 생성, 번역에서 대조적 탐색의 실증적 이득은 무엇인가?
주요 결과
- 평가된 대부분의 LMs(38모델, 16개 언어)는 등방성이다; 비등방성은 두 개의 영어 GPT-2 소형/중형 변형에 국한된다.
- 추가 학습 없이 대조적 탐색은 네 가지 생성 작업에서 전통적 디코딩 방법을 크게 능가한다.
- 다수의 언어에서(16개 중 12개) 대조적 탐색은 인간 평가에 따르면 인간 수준의 성능에 근접하다.
- 대조적 탐색은 주어진 접두어와의 일관성을 다른 확률적 방법들보다 더 잘 유지하면서도 다양성과 MAUVE 점수를 경쟁력 있게 유지한다.
- 과제 전반에서 대조적 탐색은 자동 지표에서 기준 방법들과 일치하거나 능가하는 경우가 많고 인간 판단에서 선호된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.