QUICK REVIEW

[논문 리뷰] Language as a Latent Variable: Discrete Generative Models for Sentence Compression

Yishu Miao, Phil Blunsom|arXiv (Cornell University)|2016. 09. 23.

Topic Modeling참고 문헌 27인용 수 40

한 줄 요약

이 논문은 문장 압축을 위한 변동형 오토인코더를 제안하며, 잠재 변수로는 사전에 훈련된 언어 모델에서 추출된 압축 문장을 사용한다. 레이블이 있는 데이터와 없는 데이터를 동시에 사용하여 생성 모델(ASC)과 구분 모델(FSC)을 공동으로 훈련함으로써, 훨씬 적은 레이블 데이터로도 Gigaword 문장 압축 벤치마크에서 최신 기술 수준의 성능을 달성하였으며, 완전히 지도 학습된 모델를 뛰어넘는 성능을 내기도 하였다.

ABSTRACT

In this work we explore deep generative models of text in which the latent representation of a document is itself drawn from a discrete language model distribution. We formulate a variational auto-encoder for inference in this model and apply it to the task of compressing sentences. In this application the generative model first draws a latent summary sentence from a background language model, and then subsequently draws the observed sentence conditioned on this latent summary. In our empirical evaluation we show that generative formulations of both abstractive and extractive compression yield state-of-the-art results when trained on a large amount of supervised data. Further, we explore semi-supervised compression scenarios where we show that it is possible to achieve performance competitive with previously proposed supervised models while training on a fraction of the supervised data.

연구 동기 및 목표

문장을 이산 잠재 변수로 간주하는 딥 생성 모델을 개발하여 문장 압축을 수행한다.
변동형 오토인코더 프레임워크를 통해 지도 학습과 비지도 학습을 융합하여 문장 압축 성능을 향상시킨다.
생성 모델이 잠재 요약에 대해 주어진 텍스트를 통합할 수 있는 능력을 활용하여, 대량의 비레이블 텍스트를 활용해 준반감독 학습을 가능하게 한다.
공유된 구성 요소를 사용하여 생성 모델(ASC)과 구분 모델(FSC)을 함께 훈련시켜 모델의 일반화 능력을 향상시킨다.
생성 모델이 추출적 및 개성적 문장 압축에서 최신 기술 수준의 성능을 달성하거나 이를 초월할 수 있음을 입증한다.

제안 방법

잠재 변수로는 사전에 훈련된 언어 모델의 사전 분포에서 샘플링된 압축 문장을 사용하는 변동형 오토인코더(VAE) 프레임워크를 사용한다.
추론 네트워크(에코더-압축기)는 소스 문장의 단어들만 참조하는 포인터 네트워크를 사용하여 추출적 압축을 생성함으로써 검색 공간을 줄이고 훈련 안정성을 향상시킨다.
재구성 네트워크(압축기-디코더)는 소프트 어텐션을 사용하는 RNN 기반 디코더를 통해 잠재 압축 문장을 기반으로 원본 문장을 재구성한다.
이산 샘플링의 비가역성 문제를 해결하기 위해, 훈련 중 기울기 분산을 줄이기 위해 REINFORCE 알고리즘과 포인터 네트워크를 함께 사용한다.
공유된 포인터 네트워크를 생성 모델(ASC)과 구분 모델(FSC) 간에 사용하여 공동 훈련과 준반감독 학습을 가능하게 한다.
FSC 모델은 레이블이 있는 데이터를 사용하여 교차 엔트로피 목적 함수로 훈련되고, ASC 모델은 비레이블 데이터를 사용하여 변동형 하한 경계에 기반한 목적 함수로 훈련된다.

실험 결과

연구 질문

RQ1VAE 프레임워크 내에서 언어를 이산 잠재 변수로 모델링하면 문장 압축 성능이 향상되는가?
RQ2대량의 비레이블 데이터를 기반으로 훈련된 생성 모델이, 레이블 데이터의 소수만을 사용해 훈련된 구분 모델에 비해 경쟁 가능한 성능을 달성할 수 있는가?
RQ3생성 모델(ASC)과 구분 모델(FSC)을 함께 훈련시키면, 각각을 별도로 훈련시키는 것보다 더 나은 일반화 성능을 보일 수 있는가?
RQ4포인터 네트워크 기반의 추론 네트워크는 초기 훈련 단계에서 추출적 압축 생성을 효과적으로 이끌 수 있는가?
RQ5VAE 프레임워크를 통해 지도 학습과 비지도 학습을 융합할 경우, 개성적 및 추출적 압축 작업 성능에 어떤 영향을 미치는가?

주요 결과

전체 지도 학습 데이터로 훈련된 경우, 공동 훈련된 ASC+FSC 모델은 Gigaword 문장 압축 데이터셋에서 이전에 발표된 모든 결과를 능가한다.
레이블 데이터의 일부만을 사용해도 완전히 지도 학습된 최신 기술 수준의 모델와 경쟁 가능한 성능을 달성함으로써, 강력한 준반감독 학습 능력을 입증한다.
추론 네트워크에 포인터 네트워크를 사용함으로써 초기 훈련 단계에서 훈련 안정성과 샘플 품질이 크게 향상된다.
공유된 포인터 네트워크 덕분에 비레이블 데이터로부터의 지식 전이가 효과적으로 이루어져, 개성적 요약 성능이 향상된다.
생성 모델(ASC)은 지도 학습 없이도 언어 모델 사전 분포를 활용하여 합리적이고 유창한 압축 문장을 성공적으로 학습한다.
개성적 압축 출력(ASC a 및 FSC a)은 추출적 출력보다 더 유창하고 간결하며, 공동 모델은 각 구성 요소보다 더 높은 품질의 결과를 생성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.