[논문 리뷰] Plug and Play Language Models: A Simple Approach to Controlled Text Generation
PPLM은 재훈련 없이 생성 방향을 제어하기 위해 가벼운 속성 모델과 사전 학습된 언어 모델을 결합하고, 잠재 공간 기울기 업데이트와 유창성 안전장치를 사용합니다. BoW( Bag-of-Words ) 및 판별기 기반 제어를 지원하며, 기본 LM으로 GPT-2를 사용한 주제와 감성에 대해 시연됩니다.
Large transformer-based language models (LMs) trained on huge text corpora have shown unparalleled generation capabilities. However, controlling attributes of the generated language (e.g. switching topic or sentiment) is difficult without modifying the model architecture or fine-tuning on attribute-specific data and entailing the significant cost of retraining. We propose a simple alternative: the Plug and Play Language Model (PPLM) for controllable language generation, which combines a pretrained LM with one or more simple attribute classifiers that guide text generation without any further training of the LM. In the canonical scenario we present, the attribute models are simple classifiers consisting of a user-specified bag of words or a single learned layer with 100,000 times fewer parameters than the LM. Sampling entails a forward and backward pass in which gradients from the attribute model push the LM's hidden activations and thus guide the generation. Model samples demonstrate control over a range of topics and sentiment styles, and extensive automated and human annotated evaluations show attribute alignment and fluency. PPLMs are flexible in that any combination of differentiable attribute models may be used to steer text generation, which will allow for diverse and creative applications beyond the examples given in this paper.
연구 동기 및 목표
- 기본 LM 매개변수를 수정하거나 속성 특화 데이터로 재훈련하지 않고 제어 가능한 텍스트 생성을 촉진한다.
- 사전 학습된 LM과 간단한 속성 모델을 결합하는 플러그 앤 플레이 프레임워크를 제안한다.
- BoW와 판별기 기반 속성을 사용하여 주제와 감성을 제어하는 것을 시연한다.
- 자동화된 지표와 인간 판단을 통해 속성 관련성 및 유창성을 평가한다.
제안 방법
- 사전 학습된 트랜스포머 기반 LM(GPT-2 345M)을 조건 없는 모델 p(x)로 사용한다.
- 생성을 제어하기 위해 BoW나 간단한 판별기와 같은 하나 이상 가벼운 속성 모델 p(a|x)를 연결한다.
- 각 생성 단계에서 LM 잠재 공간 H_t에서 기울기 업데이트를 수행하여 log p(a|x)를 최대화하는 동시에 KL 발산을 통한 log p(x) 유지 및 조건 없는 LM과의 사후 정규화 융합을 수행한다.
- 정규화된 기울기 단계를 통해 잠재 표현 Delta H_t를 업데이트한 다음, 업데이트된 잠재 공간으로 LM의 순방향 연산을 실행하여 수정된 출력 분포를 얻는다.
- 선택적으로 다중 샘플을 순방향 속성 가능도에 따라 순위를 매기고 다양성(Dist-1/2/3)에 따라 필터링하여 중복을 피한다.
- 다양한 속성 모델과의 호환성을 시연하고 추론 시 여러 컨트롤러를 결합하는 플러그 앤 플레이 특성에 대해 논의한다.
실험 결과
연구 질문
- RQ1사전 학습된 LM을 재훈련이나 속성 데이터에 대한 미세 조정 없이 특정 속성으로 조정할 수 있는가?
- RQ2BoW와 판별자와 같은 가벼운 속성 모델이 주제와 감성으로 생성을 얼마나 효과적으로 안내하는가?
- RQ3속성 제어가 유창성과 다양성에 미치는 영향은 무엇이며 어떻게 안전장치를 할 수 있는가?
- RQ4PPLM이 속성 관련성 및 자연스러움 측면에서 기존의 제어 가능한 생성 방법과 비교했을 때 어떤 차이가 있는가?
주요 결과
- PPLM은 추론 시 p(x)와 p(a|x)를 결합하여 LM 재훈련 없이 제어 가능한 생성을 가능하게 한다.
- BoW 기반 및 판별기 기반 속성 모델은 측정 가능한 속성 정합성으로 주제와 감성을 제어할 수 있다.
- 잠재 공간 업데이트와 KL-발산 유창성 제약은 유창하고 속성에 맞춘 텍스트를 생성하여, 관련성 및 유창성 측면에서 종종 기준선과 대등하거나 더 나은 성능을 보인다.
- 그라디언트 기반 잠재 조작과 랭킹은 재랭킹이나 직접 출력 가중치를 이용한 baselines에 비해 주제와 감정 제어를 개선한다.
- 판별기 기반 제어는 잠재 업데이트와 샘플링 전략을 결합할 때 감정 제어에 대해 상당한 이점을 제공할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.