[논문 리뷰] PlotMachines: Outline-Conditioned Generation with Dynamic Plot State Tracking
PlotMachines는 outline-조건 스토리 생성을 동적 플롯 상태 메모리와 담화 구조와 함께 도입하여, GPT-2와 Grover 같은 강력한 기준선에 비해 여러 데이터세트에서 일관성과 개요 준수를 개선한 결과를 보여준다.
We propose the task of outline-conditioned story generation: given an outline as a set of phrases that describe key characters and events to appear in a story, the task is to generate a coherent narrative that is consistent with the provided outline. This task is challenging as the input only provides a rough sketch of the plot, and thus, models need to generate a story by interweaving the key points provided in the outline. This requires the model to keep track of the dynamic states of the latent plot, conditioning on the input outline while generating the full story. We present PlotMachines, a neural narrative model that learns to transform an outline into a coherent story by tracking the dynamic plot states. In addition, we enrich PlotMachines with high-level discourse structure so that the model can learn different writing styles corresponding to different parts of the narrative. Comprehensive experiments over three fiction and non-fiction datasets demonstrate that large-scale language models, such as GPT-2 and Grover, despite their impressive generation performance, are not sufficient in generating coherent narratives for the given outline, and dynamic plot state tracking is important for composing narratives with tighter, more consistent plots.
연구 동기 및 목표
- 개요-조건의 스토리 생성 작업을 정의하고 동적 플롯 상태 추적의 필요성을 동기화한다.
- 개요에서 다단락 이야기를 생성하는 메모리 보강 트랜스포머인 PlotMachines를 개발한다.
- 전개(시작, 본문, 결말) 등 서로 다른 서사 부분의 작문 스타일을 학습하기 위해 높은 수준의 담화 구조를 도입한다.
- 다단락 내러티브와 자동 구성된 개요를 짝지어 세 개의 데이터셋을 생성하고 공개한다.
- 대형 사전 학습 모델의 한계를 입증하고 baselines에 대한 동적 플롯 상태 추적의 이점을 보여준다.
제안 방법
- 개요를 전용 포인트 구분 기호와 끝 토큰이 있는 토큰 시퀀스로 표현하고 각 단락마다 이 개요를 조건으로 생성한다.
- 두 구성요소 K(개요 포인트 추적)와 D(잠재 문서 상태)를 가진 메모리 행렬을 유지하여 문단 간 플롯 상태를 추적한다.
- 각 문단 후 게이트를 통해 이전 문단 표현 h^{i-1}을 사용하여 M^{i}를 다듬으며 메모리를 업데이트한다.
- Transformer 블록을 메모리에 대한 어텐션 경로를 추가로 포함하도록 수정하여 표준 자기 어텐션도 수행하는 한편 메모리를 참조하도록 한다; 출력은 평균화된다.
- 입력에 담화 태그(beginning, body, end)를 포함시켜 서사 구간 간의 문체 차이를 학습한다.
- 각 문단을 예측하는 교차 엔트로피 손실로 엔드-투-엔드 학습하고, 학습 중에는 실제 이전 문단을 사용해 메모리를 업데이트하며, 디코딩 시에는 미리 설정된 다섯 문단 구조를 사용한다.
실험 결과
연구 질문
- RQ1개요-조건 생성 모델이 주어진 개요를 준수하면서 일관된 장편 이야기를 생성할 수 있는가?
- RQ2비메모리 기준선과 비교했을 때 동적 플롯 상태 추적이 일관성과 개요 준수를 향상시키는가?
- RQ3담화 수준의 구조가 서로 다른 내러티브 부분의 작문 스타일 학습에 미치는 영향은 무엇인가?
- RQ4메모리 보강 모델이 대형 사전 학습 모델(GPT, GPT-2, Grover)보다 개요-조건 생성에 더 효과적인가?
주요 결과
| 모델 | Wikiplots 평균 L | Wikiplots B-2 | Wikiplots B-3 | Wikiplots B-4 | Wikiplots B-5 | WritingPrompts 평균 L | WritingPrompts B-2 | WritingPrompts B-3 | WritingPrompts B-4 | WritingPrompts B-5 | NYTimes 평균 L | NYTimes B-2 | NYTimes B-3 | NYTimes B-4 | NYTimes B-5 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 골드 테스트 | 330 | .74 | .50 | .29 | .15 | 661 | .82 | .61 | .40 | .25 | 315 | .73 | .50 | .32 | .21 |
| P&W-Static | 352 | .93 | .85 | .75 | .64 | 675 | .97 | .94 | .89 | .85 | 352 | .93 | .85 | .74 | .63 |
| Fusion | 191 | .84 | .71 | .58 | .48 | 197 | .93 | .85 | .75 | .65 | 171 | .89 | .80 | .70 | .60 |
| Grover | 835 | .72 | .49 | .48 | .37 | 997 | .88 | .72 | .52 | .34 | 719 | .79 | .57 | .38 | .25 |
| GPT | 909 | .77 | .47 | .25 | .11 | 799 | .73 | .40 | .19 | .08 | 739 | .68 | .36 | .27 | .08 |
| GPT-2 | 910 | .60 | .26 | .10 | .03 | 799 | .74 | .41 | .19 | .08 | 756 | .69 | .36 | .17 | .08 |
| PlotMachines (GPT) | 682 | .77 | .58 | .40 | .27 | 850 | .89 | .81 | .72 | .63 | 537 | .85 | .69 | .53 | .40 |
| PlotMachines (GPT-2) | 553 | .56 | .19 | .07 | .02 | 799 | .83 | .56 | .30 | .14 | 455 | .79 | .57 | .37 | .23 |
| PM-NoMem (GPT-2) | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- |
| PM-NoMem-NoDisc (GPT-2) | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- |
| base (GPT-2) | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- |
- PlotMachines는 Wikiplots, WritingPrompts, NYTimes 데이터셋에서 기준선보다 같거나 더 높은 ROUGE 점수를 달성한다.
- PlotMachines가 GPT-2 베이스를 사용하는 경우 세 데이터셋에서 여러 지표에서 Grover보다 더 높은 ROUGE를 얻는다.
- 메모리 및 담화 구성요소가 이롭고, 메모리 또는 담화를 제거한 제거실험이 성능 저하를 야기한다.
- 인간 평가에서 PlotMachines가 개요 활용, 내러티브 흐름, 전체 서열화 측면에서 GPT 및 Fusion보다 우수하다.
- PlotMachines는 기존 기준선에 비해 더 높은 다양성(자기 BLEU 감소)을 보이면서도 일관성과 개요 준수를 유지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.