QUICK REVIEW

[논문 리뷰] Transformer-based Conditional Variational Autoencoder for Controllable Story Generation

Le Fang, Tao Zeng|arXiv (Cornell University)|2021. 01. 04.

Topic Modeling참고 문헌 45인용 수 41

한 줄 요약

이 논문은 GPT-2를 디코더로 사용하는 CVAE를 Transformer 아키텍처 위에 임베딩하여 프롬프트에 조건된 길고 형식적인 이야기 생성을 제어 가능하게 하면서도 높은 생성 품질을 유지하는 잠재 변수 모델링을 재활성화한다.

ABSTRACT

We investigate large-scale latent variable models (LVMs) for neural story generation -- an under-explored application for open-domain long text -- with objectives in two threads: generation effectiveness and controllability. LVMs, especially the variational autoencoder (VAE), have achieved both effective and controllable generation through exploiting flexible distributional latent representations. Recently, Transformers and its variants have achieved remarkable effectiveness without explicit latent representation learning, thus lack satisfying controllability in generation. In this paper, we advocate to revive latent variable modeling, essentially the power of representation learning, in the era of Transformers to enhance controllability without hurting state-of-the-art generation effectiveness. Specifically, we integrate latent representation vectors with a Transformer-based pre-trained architecture to build conditional variational autoencoder (CVAE). Model components such as encoder, decoder and the variational posterior are all built on top of pre-trained language models -- GPT2 specifically in this paper. Experiments demonstrate state-of-the-art conditional generation ability of our model, as well as its excellent representation learning capability and controllability.

연구 동기 및 목표

잠재 변수 모델을 사용한 제어 가능하고 오픈 도메인 longue-text 생성을 동기 부여하고 가능하게 한다.
제어 가능성을 개선하면서 생성 품질을 희생하지 않기 위해 Transformer 기반 사전 학습 백본에 CVAE를 통합한다.
프롬프트에 조건된 길고 형식적인 이야기 구성을 안내할 수 있는 잠재 표현이 어떻게 작용하는지 연구한다.

제안 방법

GPT-2 디코더와 GPT-2 레이어로 초기화된 무마스크 양방향 인코더를 가진 Transformer 기반 CVAE를 구축한다.
잠재 코드 z를 평균과 로그 분산이 학습 가능한 등방성 가우시안으로 표현한다.
입력 추가, 의사 자기 주의, 소프트맥스-헤드 투영 등 여러 잠재 주입 전략을 통해 디코더에 잠재 코드를 주입한다.
CVAE를 위한 ELBO 목적함수로 학습하고, 후방 붕괴를 완화하기 위해 순환적 어닐링 스케줄을 사용한다.
가변 길이 인코더 출력을 하나의 잠재 벡터로 요약하기 위해 어텐션-평균 블록을 사용한다.

실험 결과

연구 질문

RQ1Transformer 기반 CVAE가 비잠재적이거나 일반 트랜스포머 기반 베이스라인과 비교해 경쟁력 있거나 우수한 조건부 이야기 생성을 달성할 수 있는가?
RQ2확률 분포적 잠재 공간을 학습하는 것이 길고 형식적인 이야기에서 제어 가능성과 프롬프트의 표현력을 향상시키는가?
RQ3세 가지 제안된 방법 중 어떤 잠재 코드 주입 방식이 긴 텍스트에서 생성 성능과 제어 가능성을 가장 잘 이끄는가?
RQ4WritingPrompts나 WikiPlots와 같은 오픈 도메인 장문 데이터셋에 모델이 얼마나 잘 확장되는가?

주요 결과

Transformer 기반 CVAE가 WritingPrompts와 WikiPlots에서 일반적으로 더 좋거나 베이스라인과 동등한 혼란도(perplexity)와 ROUGE 점수를 달성하여 강력한 조건부 생성 성능을 시사한다.
학습된 잠재 표현은 제어 가능성을 가능하게 하며, 프롬프트와 결합될 때 생성 방향을 결정할 수 있다.
잠재 주입 방식 중에서 CVAE-①과 CVAE-②가 실질적으로 비슷하게 잘 작동하고, CVAE-③은 길이가 긴 텍스트에선 일반적으로 덜 효과적이다.
사전 학습된 백본(GPT-2) 기반 모델들(PSA, FIST, CVAE)은 오픈 도메인 길이 텍스트 작업에서 융합 기반 베이스라인보다 강한 성능 향상을 보인다.
정성적 분석은 잠재 코드가 잠재 공간에서 프롬프트를 의미 있게 묶고 프롬프트 일관 콘텐츠로 생성을 이끌 수 있음을 보여준다.
잠재 변수 트랜스포머 모델은 생성 품질을 저하시키지 않으면서 길이 형식의 스토리텔링에서 제어 가능성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.