QUICK REVIEW

[논문 리뷰] Tailor: A Prompt-Based Approach to Attribute-Based Controlled Text Generation

Kexin Yang, Dayiheng Liu|arXiv (Cornell University)|2022. 04. 28.

Topic Modeling인용 수 20

한 줄 요약

Tailor는 연속적이고 사전 학습된 속성 프롬프트를 사용하여 고정된 GPT-2를 단일 속성 CTG로 안내하고, 프롬프트 연결, 마스킹, 재인덱스된 위치, 학습 가능한 MAP 커넥터를 통해 다중 속성 생성을 가능하게 하여 전체 모델 미세 조정 없이도 유창성과 견고성을 향상시킨다.

ABSTRACT

Attribute-based Controlled Text Generation (CTG) refers to generating sentences that satisfy desirable attributes (e.g., emotions and topics). Existing works often utilize fine-tuning or resort to extra attribute classifiers, yet suffer from storage and inference time increases. To address these concerns, we explore attribute-based CTG in a prompt-based manner. In short, the proposed Tailor represents each attribute as a pre-trained continuous vector (i.e., single-attribute prompt) and guides the generation of a fixed PLM switch to a pre-specified attribute. We experimentally find that these prompts can be simply concatenated as a whole to multi-attribute CTG without any re-training, yet raises problems of fluency decrease and position sensitivity. To this end, Tailor provides a multi-attribute prompt mask and a re-indexing position-ids sequence to bridge the gap between the training (one prompt for each task) and testing stage (concatenating more than one prompt). To further enhance such single-attribute prompt combinations, Tailor also introduces a trainable prompt connector, which can be concatenated with any two single-attribute prompts to multi-attribute text generation. Experiments on 11 attribute-specific generation tasks demonstrate strong performances of Tailor on both single-attribute and multi-attribute CTG, with 0.08\% training parameters of a GPT-2.

연구 동기 및 목표

모든 속성에 대해 미세 조정된 모델을 저장하지 않고도 효율적인 속성 기반 제어 텍스트 생성을 촉진한다.
각 속성이 고정된 언어 모델을 안내하는 사전 학습된 연속 프롬프트인 프롬프트 기반 프레임워크를 제안한다.
단일 속성 프롬프트를 연결하고 학습-테스트 간 격차를 해결하여 강건한 다중 속성 생성을 가능하게 한다.
유창성 및 위치 민감도 문제를 완화하기 위한 비훈련 메커니즘(MAP 마스크, RP 시퀀스)을 도입한다.
보이지 않는 속성 조합을 포함하여 다중 속성 구성의 향상 및 일반화를 위한 학습 가능한 MAP 커넥터를 제공한다.

제안 방법

각 속성을 고정된 사전 학습 연속 프롬프트(단일 속성 프롬프트)로 표현하고 속성별 데이터에서 프롬프트만 학습한다.
단일 속성 프롬프트를 입력 접두사와 연결해 고정된 GPT-2에 입력으로 넣어 속성 제어 텍스트를 생성한다.
다중 속성 생성을 위해 단일 속성 프롬프트를 연결하고 유창성/위치 민감도는 MAP 마스크와 RP 시퀀스로 해결한다.
다중 속성 생성을 위해 두 개의 단일 속성 프롬프트를 의사 속성 프롬프트와 함께 결합하는 작은 모듈을 학습시키는 MAP 커넥터를 도입한다.
다중 속성 프롬프트를 시뮬레이션하기 위해 의사 프롬프트 구성(argmax 기반 또는 가중치 기반)을 사용한다.
정확성, 텍스트 품질, 다양성에 대한 객관적 지표를 사용하여 YELP 데이터셋의 단일 및 다중 속성 CTG 작업에서 GPT-2 기본 모델로 평가한다.

실험 결과

연구 질문

RQ1속성별 프롬프트가 모델을 미세 조정 없이도 원하는 단일 속성을 가진 문장을 생성하도록 고정된 언어 모델을 이끌 수 있는가?
RQ2단일 속성 프롬프트가 연결을 통해 다중 속성 텍스트 생성으로 확장될 수 있으며, 유창성을 어떻게 보전할 수 있는가?
RQ3MAP 마스크, 재인덱스된 위치 ID 및 MAP 커넥터와 같은 메커니즘이 보이지 않는 속성 조합을 포함한 다중 속성 생성의 품질과 견고성을 향상시키는가?
RQ4다중 속성 CTG에서 프롬프트를 결합하는 비훈련 방식과 훈련 방식의 비교 이점은 무엇인가?

주요 결과

단일 속성 프롬프트는 속성에 대한 경쟁력 있는 제어를 가능하게 하며 최소한의 매개변수 업데이트로 수행된다( Tailor-S의 GPT-2에서 0.08%의 학습 매개변수).
단일 속성 프롬프트를 연결하면 다중 속성 생성을 얻을 수 있지만 유창성이 떨어지거나 위치 민감도 문제가 발생할 수 있다.
MAP 마스크와 RP 시퀀스는 교차 주의력과 위치 민감도를 완화하여 재훈련 없이도 다중 속성 생성의 안정성을 향상시킨다.
의사 프롬프트로 학습된 MAP 커넥터는 다중 속성 생성을 더욱 향상시키고 보이지 않는 속성 조합에도 일반화된다.
Tailor 변형은 Yelp의 다중 속성 CTG에서 파인튜닝 기준선에 비해 훨씬 적은 학습 매개변수로 강력한 성능을 달성한다.
소수샷 설정에서 Tailor 변형은 거의 추가 학습 매개변수 없이 기준선보다 우수한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.