Skip to main content
QUICK REVIEW

[논문 리뷰] Paraphrase Generation with Deep Reinforcement Learning

Zichao Li, Xin Jiang|arXiv (Cornell University)|2017. 11. 01.
Topic Modeling참고 문헌 65인용 수 23
한 줄 요약

이 논문은 생성자-평가자 아키텍처를 사용한 딥 강화학습 프레임워크를 제안한다: 생성자는 시퀀스-투-시퀀스 학습을 통해 번역문을 생성하고, 평가자는 지도학습 또는 역강화학습을 통해 훈련되어 생성자에게 의미 유사도 보상을 제공하여 보정한다. 이 방법은 자동 평가와 인간 평가 모두에서 최신 기술 대비 번역문 품질을 크게 향상시킨다.

ABSTRACT

Automatic generation of paraphrases from a given sentence is an important yet challenging task in natural language processing (NLP), and plays a key role in a number of applications such as question answering, search, and dialogue. In this paper, we present a deep reinforcement learning approach to paraphrase generation. Specifically, we propose a new framework for the task, which consists of a extit{generator} and an extit{evaluator}, both of which are learned from data. The generator, built as a sequence-to-sequence learning model, can produce paraphrases given a sentence. The evaluator, constructed as a deep matching model, can judge whether two sentences are paraphrases of each other. The generator is first trained by deep learning and then further fine-tuned by reinforcement learning in which the reward is given by the evaluator. For the learning of the evaluator, we propose two methods based on supervised learning and inverse reinforcement learning respectively, depending on the type of available training data. Empirical study shows that the learned evaluator can guide the generator to produce more accurate paraphrases. Experimental results demonstrate the proposed models (the generators) outperform the state-of-the-art methods in paraphrase generation in both automatic evaluation and human evaluation.

연구 동기 및 목표

  • 신경 시퀀스-투-시퀀스 모델을 사용하여 고품질의 의미적으로 정확한 번역문을 생성하는 데 도전하는 것.
  • 훈련 중 의미 유사도를 캡처하는 데 있어 어휘 기반 평가 지표(예: BLEU, ROUGE)의 한계를 극복하는 것.
  • 강화학습에서 의미 기반 보상 신호를 제공할 수 있는 훈련 가능한 평가자를 개발하는 것.
  • 특히 평행 데이터가 제한적일 경우, 평행 데이터와 비평행 데이터를 모두 활용하여 생성자를 효과적으로 훈련하는 것.
  • 이 프레임워크가 번역문 생성을 초월해 다른 시퀀스-투-시퀀스 작업으로 일반화될 수 있도록 하는 것.

제안 방법

  • 생성자는 어텐션과 복사 메커니즘을 갖춘 시퀀스-투-시퀀스 모델이며, 평행 번역쌍에 대해 교차 엔트로피 손실을 사용해 사전 훈련된다.
  • 평가자는 분해 가능한 어텐션 메커니즘에 기반한 딥 매칭 모델이며, 양성 및 음성 쌍이 가용할 경우 지도학습을 통해 훈련된다.
  • 양성 예시만 가용할 경우, 평가자는 생성자 출력을 전문 지시로 사용하는 최대 마진 원칙에 기반한 역강화학습(IRL)을 통해 보상 함수를 유추한다.
  • 생성자는 평가자의 출력을 조밀한 의미 기반 보상 신호로 사용하여 정책 기반 강화학습을 통해 추가로 보정된다.
  • 전문 지시(생성자 출력)를 처리하고 의미 유사도를 반영하는 보상 함수를 학습할 수 있도록 새로운 역 RL 알고리즘을 개발하였다.
  • 비평행 데이터를 사용한 훈련을 지원하여 데이터 효율성과 모델의 강인성을 향상시킨다.

실험 결과

연구 질문

  • RQ1어휘 기반 지표보다 의미적으로 더 정확하고 의미 기반의 보상을 제공할 수 있는 딥 매칭 모델 기반의 훈련 가능한 평가자가 번역문 생성에서 더 정확한 보상을 제공할 수 있는가?
  • RQ2양성 번역쌍만 존재할 경우, 생성자 출력을 전문 지시로 사용하는 역강화학습이 평가자 훈련을 어떻게 향상시키는가?
  • RQ3학습된 평가자로부터의 보상 신호를 사용하여 강화학습으로 생성자를 보정함으로써, 표준 시퀀스-투-시퀀스 훈련 대비 번역문 품질이 얼마나 향상되는가?
  • RQ4제안된 생성자-평가자 프레임워크는 번역문 생성 외의 다른 시퀀스-투-시퀀스 작업으로 일반화될 수 있는가?
  • RQ5의미 정확도와 유창성 측면에서 인간 평가에서 최신 기술 대비 모델 성능은 어떻게 되는가?

주요 결과

  • 제안된 방법은 Quora 질문 쌍 및 Twitter URL 번역 데이터셋에서 자동 평가(예: ROUGE, BLEU)와 인간 평가 모두에서 기존의 신경망 기반 접근법을 능가한다.
  • 역강화학습을 통해 훈련된 평가자는 명시적인 음성 예시 없이도 번역문과 비번역문을 구분하는 데 높은 성능을 달성한다.
  • 평가자로부터의 보상 신호를 사용한 강화학습 보정은 생성된 번역문의 의미 정확도를 크게 향상시킨다.
  • 이 프레임워크는 양대 벤치마크 데이터셋에서 최고 성능을 기록하여 생성자-평가자 프레임워크의 효과성을 입증한다.
  • 비평행 훈련 데이터를 사용해 생성자를 추가로 향상시킬 수 있기 때문에, 평행 데이터가 제한적인 경우에도 이 프레임워크는 효과적이다.
  • 제거 실험을 통해 평가자와 강화학습의 조합이 성능 향상에 필수적임을 확인하였으며, 단독으로 지도학습 또는 강화학습 기반 모델보다 뛰어난 성능을 내는 것을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.