Skip to main content
QUICK REVIEW

[논문 리뷰] Non-Monotonic Sequential Text Generation

Sean Welleck, Kianté Brantley|arXiv (Cornell University)|2019. 02. 05.
Natural Language Processing Techniques인용 수 63
한 줄 요약

본 논문은 비단조적 생성 순서를 학습하는 이진 트리 기반 정책을 모방 학습으로 학습하여 left-to-right 모델과 경쟁력 있는 성능을 달성하는 텍스트 생성기 프레임워크를 소개한다.

ABSTRACT

Standard sequential generation methods assume a pre-specified generation order, such as text generation methods which generate words from left to right. In this work, we propose a framework for training models of text generation that operate in non-monotonic orders; the model directly learns good orders, without any additional annotation. Our framework operates by generating a word at an arbitrary position, and then recursively generating words to its left and then words to its right, yielding a binary tree. Learning is framed as imitation learning, including a coaching method which moves from imitating an oracle to reinforcing the policy's own preferences. Experimental results demonstrate that using the proposed method, it is possible to learn policies which generate text without pre-specifying a generation order, while achieving competitive performance with conventional left-to-right generation.

연구 동기 및 목표

  • 외부 감독 없이 비단조적 생성 순서를 탐구하도록 동기를 부여한다.
  • 임의의 순서로 시퀀스를 출력할 수 있는 트리 기반 생성 프레임워크를 개발한다.
  • 학습을 오라클과의 모방 학습 및 코칭으로 정책 학습을 안내하는 방식으로 형식화한다.
  • 비단조적 생성이 여러 작업에서 좌→우 기준선과 일치하거나 이를 초과할 수 있음을 보여준다.

제안 방법

  • 생성 과정을 레벨 순회로 이진 트리를 구성하고 최종 시퀀스를 중위 순회로 생성하는 방식으로 모델링한다.
  • 정책을 부분 트리가 주어졌을 때 가능한 다음 토큰이나 종료 토큰에 대한 분포를 출력하는 신경망(LSTM 또는 Transformer)로 표현한다.
  • 학습을 롤인/롤아웃이 있는 모방 학습으로 프레이밍하고, 오라클 정책을 사용한 비용과 학습자와 오라클의 선호 행동을 일치시키기 위한 KL 발산 기반 비용을 사용한다.
  • 코칭과 어닐링(coaching)된 코칭 오라클을 도입하여 탐색을 유지하면서 학습자를 점진적으로 자신의 선호 방향으로 편향시킨다.
  • 입력 X에 대한 조건 부여를 허용하고(X를 인코딩하여 정책 상태를 초기화하거나 조절하는 방식으로) 번역이나 이미지 캡션 작성처럼 조건부 생성에 활용한다.
  • 종료 토큰 예측을 토큰 예측과 분리하는 변형을 제공하고, 개선을 위해 명시적 트리 인코딩을 선택적으로 도입한다.

실험 결과

연구 질문

  • RQ1사전에 지정된 단조성(ordering)을 요구하지 않는 상태에서 텍스트 생성기가 유용한 생성 순서를 학습할 수 있는가?
  • RQ2언어 모델링, 재정렬, 번역 과제에서 비단조적 생성 정책은 전통적 좌→우 모델과 비교해 얼마나 효과적인가?
  • RQ3어떤 학습-검색 전략(오라클 정의, 롤인/롤아웃 스킴)이 비단조적 시퀀스 생성을 위한 학습을 가장 원활하게 하는가?
  • RQ4어닐링 코칭이 균일 코칭 또는 순수 코칭 오라클보다 탐색 및 최종 성능을 향상시키는가?
  • RQ5프레임워크를 보조 입력에 조건부로 적용할 수 있는가(예: 번역과 같은 조건부 생성에서 수작업 감독 없이)?

주요 결과

  • 이 프레임워크는 고정된 순서에 의존하지 않는 생성 정책의 학습을 가능하게 하며, 먼저 쉬운 것을 선택하는 동작을 보일 수 있다.
  • 어닐링 코칭으로 학습된 정책은 더 유창하고 참신한 문장을 생성하는 경향이 있으며, 다른 비단조적 설정보다 검증 데이터에 가까운 Bleu 유사 품질을 달성한다.
  • 단어 재정렬에서 어닐링 및 균일 정책은 F1에서 좌→우 기준선보다 우수할 수 있으며 검증 및 테스트 세트에서 Bleu 점수 역시 경쟁력을 유지한다.
  • 기계 번역에서 비단조적 정책은 좌→우 모델과 경쟁력 있는 지표를 달성하며, 어닐링 변형은 여러 지표에서 기준 품질에 근접하거나 이를 능가하는 경우가 많다.
  • 이 접근 방식은 Transformer 기반 정책과 종료 토큰 처리로 조건부 생성(예: 번역)을 표준 자기회귀 디코딩 제약 없이도 성공적으로 수행한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.