QUICK REVIEW

[논문 리뷰] Generating Wikipedia by Summarizing Long Sequences

Peter J. Liu, Mohammad Saleh|arXiv (Cornell University)|2018. 01. 30.

Natural Language Processing Techniques참고 문헌 14인용 수 74

한 줄 요약

본 논문은 위키피디아 기사 생성을 다문서 추상적 요약 문제로 다루며, 매우 긴 입력 시퀀스를 처리해 일관된 위키피디아 텍스트를 생성할 수 있는 디코더-전용 Transformer 변형을 도입한다.

ABSTRACT

We show that generating English Wikipedia articles can be approached as a multi- document summarization of source documents. We use extractive summarization to coarsely identify salient information and a neural abstractive model to generate the article. For the abstractive model, we introduce a decoder-only architecture that can scalably attend to very long sequences, much longer than typical encoder- decoder architectures used in sequence transduction. We show that this model can generate fluent, coherent multi-sentence paragraphs and even whole Wikipedia articles. When given reference documents, we show it can extract relevant factual information as reflected in perplexity, ROUGE scores and human evaluations.

연구 동기 및 목표

다양한 참조 텍스트로부터 위키피디아 기사를 다문서 요약으로 생성하는 아이디어를 제시한다.
매우 긴 입력을 관리하기 위한 두 단계의 추출적-추상적 프레임워크를 제안한다.
길이가 긴 시퀀스를 처리하는 디코더-전용 Transformer 아키텍처를 개발하고 평가한다.
참조 문서가 주어졌을 때 추상적 모델이 유창하고 응집력 있는 위키피디아 스타일 텍스트를 생성할 수 있음을 보여준다.

제안 방법

참조 입력으로 인용문과 웹 검색 문서를 결합한 WikiSum 데이터셋을 정의하고 Wikipedia 텍스트를 타깃으로 삼는다.
tf-idf, TextRank, SumBasic, 및 cheating 추출기를 포함한 방법으로 중요한 입력 텍스트를 선택하는 추출적 단계를 사용한다.
매우 긴 입력(최대 11000 토큰)을 처리하여 다중 문장 위키피디아 리드를 생성하도록 추상적 단계를 학습한다.
길이가 긴 시퀀스를 위한 로컬 및 메모리 압축 주의와 함께 디코더-전용 Transformer 변형(T-D)과 확장(T-DMCA)을 제안한다.
용량 확장을 위한 선택적 전문가 혼합(MoE) 계층이 있는 메모리 효율적 아키텍처를 도입한다.
복잡도(perplexity)와 ROUGE-L F1을 사용하여 평가하고 인간의 언어 품질 판단으로 보완한다.

실험 결과

연구 질문

RQ1긴 입력의 다문서가 추상적 모델을 사용하여 위키피디아 스타일의 텍스트로 효과적으로 요약될 수 있는가?
RQ2길이가 긴 시퀀스 요약 작업에서 디코더-전용 Transformer가 인코더-디코더 설정보다 우수한가?
RQ3위키피디아 리드 생성을 위한 다문서 요약에서 입력 추출 품질이 최종 추상 수행에 어떤 영향을 미치는가?
RQ4매우 긴 시퀀스를 처리하기 위한 어떤 아키텍처적 적응(로컬 및 메모리 압축 주의, MoE)이 필요한가?
RQ5참조 문서에 조건부로 유창한 리드와 전체 기사를 생성할 수 있는가?

주요 결과

다단계 추출-추상적 프레임워크가 다문서 참조를 조건으로 유창하고 일관된 위키피디아 리드를 산출한다.
스마트 추출(tf-idf)은 간단한 추출 베이스라인에 비해 추상적 성능을 크게 향상시킨다.
디코더-전용 Transformer 변형(T-D, T-DMCA)은 긴 입력에서 seq2seq-att 및 표준 Transformer-ED를 능가하며, 결합 데이터에서 perplexity가 1.90까지, ROUGE-L이 38.8까지 가능하다.
메모리 효율적 주의(로컬 및 메모리 압축)가 최대 11,000 토큰의 시퀀스를 처리 가능하게 하여 모델 용량과 성능을 증가시킨다.
MoE를 포함한 전문가 혼합 모듈은 긴 입력으로 확장할 때 perplexity와 ROUGE를 더 개선한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.