Skip to main content
QUICK REVIEW

[논문 리뷰] POINTER: Constrained Text Generation via Insertion-based Generative Pre-training

Yizhe Zhang, Guoyin Wang|arXiv (Cornell University)|2020. 05. 01.
Topic Modeling인용 수 23
한 줄 요약

POINTER는 병렬적으로 점진적으로 토큰을 삽입하는 방식으로 하드 제약 조건이 있는 텍스트 생성을 위한 비자기적(non-autoregressive) 접근법을 제안한다. 이는 해석 가능한 계층적(coarse-to-fine) 생성을 가능하게 한다. BERT 유사 목적함수를 사용해 12GB의 위키백과 데이터를 사전학습한 후, 뉴스 및 야놀자(Yelp) 데이터셋에서 최신 기술 성능을 달성했으며, 추론 복잡도는 로그 수준이다.

ABSTRACT

Large-scale pre-trained language models, such as BERT and GPT-2, have achieved excellent performance in language representation learning and free-form text generation. However, these models cannot be directly employed to generate text under specified lexical constraints. To address this challenge, we present POINTER, a simple yet novel insertion-based approach for hard-constrained text generation. The proposed method operates by progressively inserting new tokens between existing tokens in a parallel manner. This procedure is recursively applied until a sequence is completed. The resulting coarse-to-fine hierarchy makes the generation process intuitive and interpretable. Since our training objective resembles the objective of masked language modeling, BERT can be naturally utilized for initialization. We pre-train our model with the proposed progressive insertion-based objective on a 12GB Wikipedia dataset, and fine-tune it on downstream hard-constrained generation tasks. Non-autoregressive decoding yields a logarithmic time complexity during inference time. Experimental results on both News and Yelp datasets demonstrate that POINTER achieves state-of-the-art performance on constrained text generation. We intend to release the pre-trained model to facilitate future research.

연구 동기 및 목표

  • 기존의 사전학습된 언어 모델이 엄격한 어휘 제약 조건 하에서 텍스트를 생성하는 데에 한계가 있음을 해결하고자 한다.
  • 출력 내용의 해석 가능성과 제어성을 유지하면서도 비자기적 생성 방법을 개발하고자 한다.
  • 삽입 기반 학습 목적함수를 BERT의 마스킹 언어 모델링 목적함수와 일치시켜 초기화를 가능하게 하고자 한다.
  • 효율적인 로그 시간 추론을 통해 높은 품질의 제약 조건이 있는 텍스트 생성을 달성하고자 한다.
  • 향후 제약 조건이 있는 텍스트 생성 연구를 지원하기 위해 사전학습된 모델을 공개하고자 한다.

제안 방법

  • 모델은 기존 토큰들 사이에 병렬적으로 점진적으로 새로운 토큰을 삽입함으로써 계층적(coarse-to-fine) 방식으로 텍스트를 생성한다.
  • 학습 목적함수는 마스킹 언어 모델링을 모방하여, 사전학습된 BERT 체크포인트로의 초기화를 가능하게 한다.
  • 진행적 삽입 기법은 완전한 시퀀스가 형성될 때까지 토큰 삽입을 재귀적으로 적용한다.
  • 비자기적 디코딩 전략을 사용하여 추론 시 O(log n)의 시간 복잡도를 달성한다.
  • 다운스트림 제약 조건이 있는 생성 작업에 대한 미세조정 전에, 삽입 기반 목적함수를 사용해 12GB의 위키백과 데이터셋에서 사전학습한다.
  • 차별 가능한 삽입 연산을 지원하는 아키텍처를 통해 시퀀스의 일관성을 유지하면서 종단 간(end-to-end) 학습이 가능하다.

실험 결과

연구 질문

  • RQ1삽입 기반 비자기적 접근법이 제약 조건이 있는 텍스트 생성에서 자기적 모델보다 더 높은 성능을 달성할 수 있는가?
  • RQ2삽입 목적함수를 마스킹 언어 모델링과 일치시킴으로써 학습 안정성과 성능 향상에 어느 정도 기여하는가?
  • RQ3계층적이고 계층적인(coarse-to-fine) 생성 과정이 제약 조건이 있는 생성에서 해석 가능성과 제어성을 향상시키는가?
  • RQ4삽입 기반 방법의 로그 시간 복잡도가 자기적 기준 모델 대비 속도와 품질 측면에서 어떻게 비교되는가?
  • RQ5이 모델은 뉴스 생성 및 리뷰 생성과 같은 다양한 제약 조건이 있는 생성 작업에 일반화될 수 있는가?

주요 결과

  • POINTER는 뉴스 및 야놀자(Yelp) 데이터셋에서 하드 제약 조건이 있는 텍스트 생성에서 최신 기술 성능을 달성한다.
  • 기존의 자기적 및 비자기적 기준 모델 대비 어휘 제약 조건 하에서 뛰어난 생성 품질을 보인다.
  • 비자기적 디코딩은 로그 시간 복잡도를 제공하여 추론 속도를 크게 향상시킨다.
  • 마스킹 언어 모델링과 일치하는 삽입 기반 학습 목적함수 덕분에 효과적인 사전학습 및 미세조정이 가능하다.
  • 계층적이고 계층적인 생성 과정은 해석 가능하고 직관적인 생성 방식을 제공한다.
  • 사전학습된 모델는 향후 제약 조건이 있는 텍스트 생성 연구를 지원하기 위해 공개된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.