QUICK REVIEW

[논문 리뷰] Generating Text from Structured Data with Application to the Biography Domain.

Rémi Lebret, David Grangier|arXiv (Cornell University)|2016. 03. 24.

Topic Modeling참고 문헌 39인용 수 34

한 줄 요약

이 논문은 고정 어휘와 복사 기반 메커니즘을 조합하여 대규모이고 다양한 생애기록 데이터셋을 다룰 수 있는 신경 개념-텍스트 생성 모델을 제안한다. 400만 어휘를 가진 70만 건의 다양한 생애기록을 포함하는 위키백과 기반 데이터셋에서 고전적 Kneser-Ney 언어 모델 대비 15 BLEU 포인트 향상된 성능을 달성한다.

ABSTRACT

This paper introduces a neural model for concept-to-text generation that scales to large, rich domains. We experiment with a new dataset of biographies from Wikipedia that is an order of magni- tude larger than existing resources with over 700k samples. The dataset is also vastly more diverse with a 400k vocab- ulary, compared to a few hundred words for Weathergov or Robocup. Our model builds upon recent work on conditional neural language model for text genera- tion. To deal with the large vocabulary, we extend these models to mix a fixed vocabulary with copy actions that trans- fer sample-specific words from the in- put database to the generated output sen- tence. Our neural model significantly out- performs a classical Kneser-Ney language model adapted to this task by nearly 15 BLEU.

연구 동기 및 목표

대규모이고 구조화된 생애기록 데이터에서 고품질의 다양한 텍스트를 생성하는 데 도전하는 것.
작은 전문 분야 데이터셋을 초월해 어휘가 풍부하고 다양한 분야에 확장 가능한 신경 텍스트 생성을 스케일링하는 것.
저자원 및 고변동성 텍스트 생성 과제에서 고전적 언어 모델 대비 생성 품질을 향상시키는 것.
입력 데이터베이스에서 도메인 특화 단어를 처리하기 위해 복사 기반 메커니즘을 통합한 확장 가능한 신경 아키텍처를 개발하는 것.

제안 방법

모델은 고정 어휘와 복사 동작을 조합하여 대규모 어휘를 다룰 수 있도록 조건부 신경 언어 모델을 확장한다.
복사 동작은 입력 데이터베이스의 샘플 고유 단어를 직접 생성된 문장으로 전달한다.
이 아키텍처는 70만 건 이상의 샘플을 포함하는 대규모 위키백과 기반 생애기록 데이터셋에서 훈련된다.
모델은 구조화된 입력 특징에 조건을 두기 위해 어텐션 메커니즘을 활용한 신경 시퀀스 생성을 사용한다.
하이브리드 생성 전략을 활용한다: 고정 어휘에서 예측하거나 입력 데이터에서 복사한다.

실험 결과

연구 질문

RQ1신경 텍스트 생성 모델은 어휘가 풍부한 대규모이고 다양한 도메인, 예를 들어 생애기록과 같은 분야로 효과적으로 확장될 수 있는가?
RQ2복사 기반 메커니즘을 통합함으로써 대규모 외부 도메인 데이터셋에서 생성 품질은 어떻게 향상되는가?
RQ3제안된 모델은 저자원 및 고변동성 텍스트 생성 과제에서 고전적 언어 모델보다 어느 정도 뛰어난 성능을 보이는가?
RQ4대규모이고 다양한 훈련 데이터는 신경 텍스트 생성 성능에 어떤 영향을 미치는가?

주요 결과

제안된 신경 모델은 동일한 과제에서 고전적 Kneser-Ney 언어 모델 대비 15 BLEU 포인트 향상된 성능을 달성한다.
모델은 기존의 웨더고브나 로보컵과 같은 데이터셋에서 흔히 볼 수 있는 수백 단어 수준을 훨씬 넘는 40만 어휘를 효과적으로 처리한다.
복사 기반 메커니즘의 사용은 입력 데이터베이스에서 희귀하거나 도메인 특화된 고유명사의 정확한 생성을 가능하게 한다.
모델은 70만 건 이상의 샘플을 포함하는 대규모이고 다양한 생애기록 데이터셋에서 강력한 일반화 능력을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.