QUICK REVIEW

[논문 리뷰] Backward and Forward Language Modeling for Constrained Sentence Generation

Lili Mou, Rui Yan|arXiv (Cornell University)|2015. 12. 21.

Topic Modeling참고 문헌 18인용 수 27

한 줄 요약

이 논문은 주어진 목표 단어를 포함하는 문장을 생성하기 위해 목표 단어 기준으로 과거와 미래 단어를 별도로 모델링하는 백워드-포워드(B/F) 언어 모델을 제안한다. 동기화 또는 이방향 RNN을 사용하여 표준 순차적 언어 모델과 유사한 생성 품질을 달성하면서도, 목표 단어가 원하는 위치에 항상 포함되도록 보장한다.

ABSTRACT

Recent language models, especially those based on recurrent neural networks (RNNs), make it possible to generate natural language from a learned probability. Language generation has wide applications including machine translation, summarization, question answering, conversation systems, etc. Existing methods typically learn a joint probability of words conditioned on additional information, which is (either statically or dynamically) fed to RNN's hidden layer. In many applications, we are likely to impose hard constraints on the generated texts, i.e., a particular word must appear in the sentence. Unfortunately, existing approaches could not solve this problem. In this paper, we propose a novel backward and forward language model. Provided a specific word, we use RNNs to generate previous words and future words, either simultaneously or asynchronously, resulting in two model variants. In this way, the given word could appear at any position in the sentence. Experimental results show that the generated texts are comparable to sequential LMs in quality.

연구 동기 및 목표

특정 단어를 강제로 포함해야 하는 자연어 문장을 생성하는 데 도전하는 것.
추가 정보에 조건을 줘도 필수 단어의 존재를 보장하지 못하는 기존 언어 모델의 한계를 극복하는 것.
목표 단어를 문장의 어떤 위치에나 배치할 수 있는 유창하고 논리적인 문장을 생성하는 방법을 개발하는 것.
제약 조건을 강제함과 동시에 표준 순차적 언어 모델과 유사한 생성 품질을 유지하는 것.

제안 방법

주어진 목표 단어 기준으로 문장 생성 과정을 분할하는 백워드-포워드(B/F) 언어 모델을 제안한다.
목표 단어 이전의 단어를 생성하는 데 사용되는 RNN(백워드)과 이후의 단어를 생성하는 데 사용되는 RNN(포워드)를 사용하며, 이들 모두가 목표 단어를 조건으로 한다.
두 가지 변형을 구현한다: 동기화 B/F(syn-B/F), 두 RNN이 동시에 생성을 수행하는 방식; 이방향 B/F(asyn-B/F), 생성을 순차적으로 진행하는 방식.
목표 단어가 최종 문장에 포함되도록 하기 위해 백워드 및 포워드 RNN을 목표 단어의 임베딩으로 조건화한다.
목표 단어가 주어진 위치에 고정되어 있을 때 전체 문장의 가능도를 최대화하도록 모델을 훈련한다.
공동 확률 분해를 사용한다: p(w₁,…,wₜ₋₁, wₜ, wₜ₊₁,…,wₘ) = p(w₁,…,wₜ₋₁|wₜ) × p(wₜ) × p(wₜ₊₁,…,wₘ|wₜ), 여기서 wₜ는 제약 조건이 적용된 단어이다.

실험 결과

연구 질문

RQ1목표 단어의 위치가 어디든 상관없이 그 단어가 포함된 문장을 보장할 수 있는 언어 모델을 설계할 수 있는가?
RQ2B/F 언어 모델의 성능은 유창성과 퍼즐리티 측면에서 표준 순차적 언어 모델과 비교해 어떻게 되는가?
RQ3제약 조건이 있는 생성 작업에서 이방향 생성(asyn-B/F)이 동기화 또는 별도 생성(sep-B/F)보다 더 높은 문장 품질을 낼 수 있는가?
RQ4무작위 단어 분할은 퍼즐리티에 어떤 영향을 미치며, 모델은 위치에 민감하지 않은 제약 조건을 어떻게 처리하는가?

주요 결과

제안된 B/F 언어 모델은 목표 단어를 문장 어디에나 포함시킬 수 있으며, 표준 언어 모델의 핵심적 한계를 극복한다.
목표 단어가 고정되어 있을 경우 B/F 모델의 퍼즐리티는 순차적 언어 모델과 유사하며, 퍼즐리티 < 100 수준을 기록함으로써 제약 조건 하에서도 강력한 모델링 능력을 입증한다.
이방향 B/F(asyn-B/F)는 별도 또는 동기화 변형보다 더 높은 품질의 문장을 생성하며, 순차적 언어 모델과 동등한 유창성과 논리성을 확보한다.
문장의 후반부 위치(예: t ≥ 4)에서 B/F 모델은 순차적 언어 모델과 거의 동일한 퍼즐리티를 기록함으로써 강력한 장거리 모델링 능력을 보여준다.
순차적 언어 모델이 자주 포함하지 못하는 제약 단어인 'systems' 또는 'models'에 대해서도 문법적으로 올바르고 주제 관련 문장을 더 잘 생성함으로써 베이스라인을 능가한다.
무작위 단어 분할은 불확실성으로 인해 퍼즐리티를 증가시키지만, 목표 단어를 사전에 알고 있는 경우(오라클 설정) 이 효과가 완화된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.