QUICK REVIEW

[논문 리뷰] POINTER: Constrained Text Generation via Insertion-based Generative Pre-training

Yizhe Zhang, Guoyin Wang|arXiv (Cornell University)|2020. 05. 01.

Topic Modeling인용 수 23

한 줄 요약

POINTER는 병렬적으로 점진적으로 토큰을 삽입하는 방식으로 하드 제약 조건이 있는 텍스트 생성을 위한 비자기적(non-autoregressive) 접근법을 제안한다. 이는 해석 가능한 계층적(coarse-to-fine) 생성을 가능하게 한다. BERT 유사 목적함수를 사용해 12GB의 위키백과 데이터를 사전학습한 후, 뉴스 및 야놀자(Yelp) 데이터셋에서 최신 기술 성능을 달성했으며, 추론 복잡도는 로그 수준이다.

ABSTRACT

Large-scale pre-trained language models, such as BERT and GPT-2, have achieved excellent performance in language representation learning and free-form text generation. However, these models cannot be directly employed to generate text under specified lexical constraints. To address this challenge, we present POINTER, a simple yet novel insertion-based approach for hard-constrained text generation. The proposed method operates by progressively inserting new tokens between existing tokens in a parallel manner. This procedure is recursively applied until a sequence is completed. The resulting coarse-to-fine hierarchy makes the generation process intuitive and interpretable. Since our training objective resembles the objective of masked language modeling, BERT can be naturally utilized for initialization. We pre-train our model with the proposed progressive insertion-based objective on a 12GB Wikipedia dataset, and fine-tune it on downstream hard-constrained generation tasks. Non-autoregressive decoding yields a logarithmic time complexity during inference time. Experimental results on both News and Yelp datasets demonstrate that POINTER achieves state-of-the-art performance on constrained text generation. We intend to release the pre-trained model to facilitate future research.

연구 동기 및 목표

기존의 사전학습된 언어 모델이 엄격한 어휘 제약 조건 하에서 텍스트를 생성하는 데에 한계가 있음을 해결하고자 한다.
출력 내용의 해석 가능성과 제어성을 유지하면서도 비자기적 생성 방법을 개발하고자 한다.
삽입 기반 학습 목적함수를 BERT의 마스킹 언어 모델링 목적함수와 일치시켜 초기화를 가능하게 하고자 한다.
효율적인 로그 시간 추론을 통해 높은 품질의 제약 조건이 있는 텍스트 생성을 달성하고자 한다.
향후 제약 조건이 있는 텍스트 생성 연구를 지원하기 위해 사전학습된 모델을 공개하고자 한다.

제안 방법

모델은 기존 토큰들 사이에 병렬적으로 점진적으로 새로운 토큰을 삽입함으로써 계층적(coarse-to-fine) 방식으로 텍스트를 생성한다.
학습 목적함수는 마스킹 언어 모델링을 모방하여, 사전학습된 BERT 체크포인트로의 초기화를 가능하게 한다.
진행적 삽입 기법은 완전한 시퀀스가 형성될 때까지 토큰 삽입을 재귀적으로 적용한다.
비자기적 디코딩 전략을 사용하여 추론 시 O(log n)의 시간 복잡도를 달성한다.
다운스트림 제약 조건이 있는 생성 작업에 대한 미세조정 전에, 삽입 기반 목적함수를 사용해 12GB의 위키백과 데이터셋에서 사전학습한다.
차별 가능한 삽입 연산을 지원하는 아키텍처를 통해 시퀀스의 일관성을 유지하면서 종단 간(end-to-end) 학습이 가능하다.

실험 결과

연구 질문

RQ1삽입 기반 비자기적 접근법이 제약 조건이 있는 텍스트 생성에서 자기적 모델보다 더 높은 성능을 달성할 수 있는가?
RQ2삽입 목적함수를 마스킹 언어 모델링과 일치시킴으로써 학습 안정성과 성능 향상에 어느 정도 기여하는가?
RQ3계층적이고 계층적인(coarse-to-fine) 생성 과정이 제약 조건이 있는 생성에서 해석 가능성과 제어성을 향상시키는가?
RQ4삽입 기반 방법의 로그 시간 복잡도가 자기적 기준 모델 대비 속도와 품질 측면에서 어떻게 비교되는가?
RQ5이 모델은 뉴스 생성 및 리뷰 생성과 같은 다양한 제약 조건이 있는 생성 작업에 일반화될 수 있는가?

주요 결과

POINTER는 뉴스 및 야놀자(Yelp) 데이터셋에서 하드 제약 조건이 있는 텍스트 생성에서 최신 기술 성능을 달성한다.
기존의 자기적 및 비자기적 기준 모델 대비 어휘 제약 조건 하에서 뛰어난 생성 품질을 보인다.
비자기적 디코딩은 로그 시간 복잡도를 제공하여 추론 속도를 크게 향상시킨다.
마스킹 언어 모델링과 일치하는 삽입 기반 학습 목적함수 덕분에 효과적인 사전학습 및 미세조정이 가능하다.
계층적이고 계층적인 생성 과정은 해석 가능하고 직관적인 생성 방식을 제공한다.
사전학습된 모델는 향후 제약 조건이 있는 텍스트 생성 연구를 지원하기 위해 공개된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.