[논문 리뷰] Tailor: A Prompt-Based Approach to Attribute-Based Controlled Text Generation
Tailor는 연속적이고 사전 학습된 속성 프롬프트를 사용하여 고정된 GPT-2를 단일 속성 CTG로 안내하고, 프롬프트 연결, 마스킹, 재인덱스된 위치, 학습 가능한 MAP 커넥터를 통해 다중 속성 생성을 가능하게 하여 전체 모델 미세 조정 없이도 유창성과 견고성을 향상시킨다.
Attribute-based Controlled Text Generation (CTG) refers to generating sentences that satisfy desirable attributes (e.g., emotions and topics). Existing works often utilize fine-tuning or resort to extra attribute classifiers, yet suffer from storage and inference time increases. To address these concerns, we explore attribute-based CTG in a prompt-based manner. In short, the proposed Tailor represents each attribute as a pre-trained continuous vector (i.e., single-attribute prompt) and guides the generation of a fixed PLM switch to a pre-specified attribute. We experimentally find that these prompts can be simply concatenated as a whole to multi-attribute CTG without any re-training, yet raises problems of fluency decrease and position sensitivity. To this end, Tailor provides a multi-attribute prompt mask and a re-indexing position-ids sequence to bridge the gap between the training (one prompt for each task) and testing stage (concatenating more than one prompt). To further enhance such single-attribute prompt combinations, Tailor also introduces a trainable prompt connector, which can be concatenated with any two single-attribute prompts to multi-attribute text generation. Experiments on 11 attribute-specific generation tasks demonstrate strong performances of Tailor on both single-attribute and multi-attribute CTG, with 0.08\% training parameters of a GPT-2.
연구 동기 및 목표
- 모든 속성에 대해 미세 조정된 모델을 저장하지 않고도 효율적인 속성 기반 제어 텍스트 생성을 촉진한다.
- 각 속성이 고정된 언어 모델을 안내하는 사전 학습된 연속 프롬프트인 프롬프트 기반 프레임워크를 제안한다.
- 단일 속성 프롬프트를 연결하고 학습-테스트 간 격차를 해결하여 강건한 다중 속성 생성을 가능하게 한다.
- 유창성 및 위치 민감도 문제를 완화하기 위한 비훈련 메커니즘(MAP 마스크, RP 시퀀스)을 도입한다.
- 보이지 않는 속성 조합을 포함하여 다중 속성 구성의 향상 및 일반화를 위한 학습 가능한 MAP 커넥터를 제공한다.
제안 방법
- 각 속성을 고정된 사전 학습 연속 프롬프트(단일 속성 프롬프트)로 표현하고 속성별 데이터에서 프롬프트만 학습한다.
- 단일 속성 프롬프트를 입력 접두사와 연결해 고정된 GPT-2에 입력으로 넣어 속성 제어 텍스트를 생성한다.
- 다중 속성 생성을 위해 단일 속성 프롬프트를 연결하고 유창성/위치 민감도는 MAP 마스크와 RP 시퀀스로 해결한다.
- 다중 속성 생성을 위해 두 개의 단일 속성 프롬프트를 의사 속성 프롬프트와 함께 결합하는 작은 모듈을 학습시키는 MAP 커넥터를 도입한다.
- 다중 속성 프롬프트를 시뮬레이션하기 위해 의사 프롬프트 구성(argmax 기반 또는 가중치 기반)을 사용한다.
- 정확성, 텍스트 품질, 다양성에 대한 객관적 지표를 사용하여 YELP 데이터셋의 단일 및 다중 속성 CTG 작업에서 GPT-2 기본 모델로 평가한다.
실험 결과
연구 질문
- RQ1속성별 프롬프트가 모델을 미세 조정 없이도 원하는 단일 속성을 가진 문장을 생성하도록 고정된 언어 모델을 이끌 수 있는가?
- RQ2단일 속성 프롬프트가 연결을 통해 다중 속성 텍스트 생성으로 확장될 수 있으며, 유창성을 어떻게 보전할 수 있는가?
- RQ3MAP 마스크, 재인덱스된 위치 ID 및 MAP 커넥터와 같은 메커니즘이 보이지 않는 속성 조합을 포함한 다중 속성 생성의 품질과 견고성을 향상시키는가?
- RQ4다중 속성 CTG에서 프롬프트를 결합하는 비훈련 방식과 훈련 방식의 비교 이점은 무엇인가?
주요 결과
- 단일 속성 프롬프트는 속성에 대한 경쟁력 있는 제어를 가능하게 하며 최소한의 매개변수 업데이트로 수행된다( Tailor-S의 GPT-2에서 0.08%의 학습 매개변수).
- 단일 속성 프롬프트를 연결하면 다중 속성 생성을 얻을 수 있지만 유창성이 떨어지거나 위치 민감도 문제가 발생할 수 있다.
- MAP 마스크와 RP 시퀀스는 교차 주의력과 위치 민감도를 완화하여 재훈련 없이도 다중 속성 생성의 안정성을 향상시킨다.
- 의사 프롬프트로 학습된 MAP 커넥터는 다중 속성 생성을 더욱 향상시키고 보이지 않는 속성 조합에도 일반화된다.
- Tailor 변형은 Yelp의 다중 속성 CTG에서 파인튜닝 기준선에 비해 훨씬 적은 학습 매개변수로 강력한 성능을 달성한다.
- 소수샷 설정에서 Tailor 변형은 거의 추가 학습 매개변수 없이 기준선보다 우수한 성능을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.