[논문 리뷰] WikiHow: A Large Scale Text Summarization Dataset
WikiHow는 WikiHow에서 가져온 200k개가 넘는 기사-요약 쌍으로 구성된 크고 다양한 텍스트 요약 데이터셋을 소개하여 장문 시퀀스 추상적 작업과 새로운 기준선을 가능하게 한다.
Sequence-to-sequence models have recently gained the state of the art performance in summarization. However, not too many large-scale high-quality datasets are available and almost all the available ones are mainly news articles with specific writing style. Moreover, abstractive human-style systems involving description of the content at a deeper level require data with higher levels of abstraction. In this paper, we present WikiHow, a dataset of more than 230,000 article and summary pairs extracted and constructed from an online knowledge base written by different human authors. The articles span a wide range of topics and therefore represent high diversity styles. We evaluate the performance of the existing methods on WikiHow to present its challenges and set some baselines to further improve it.
연구 동기 및 목표
- 뉴스 기사 외의 대규모이고 다양한 요약 데이터의 필요성을 제시한다.
- 롱 시퀀스 추상적 요약에 적합한 다주제 대규모 데이터셋으로 WikiHow를 소개한다.
- 데이터셋을 특성화하기 위한 추상화 수준과 압축에 대한 메트릭을 정의한다.
- WikiHow에 대해 추출적 및 추상적 기준선을 제공하여 벤치마킹 참조를 확립한다.
제안 방법
- Python Scrapy를 사용해 20개가 넘는 카테고리의 기사를 수집하는 WikiHow 크롤링.
- 볼드로 표시된 단계 요약을 참조로 삼고 남은 단계 설명을 기사로 연결하여 기사-요약 쌍을 구성한다.
- 요약이 기사 내용보다 짧지 않은 쌍은 unusable로 필터링하여 최종적으로 204,004쌍의 세트를 얻는다.
- 참조 요약과 기사 간의 비교(n-gram의 고유성) 및 평균 문장 길이를 통해 추상화 및 압축 메트릭을 정의한다.
- WikiHow와 CNN/Daily Mail에서 기존의 추출적 및 추상적 기준선을 평가한다(TextRank, 주의 기반 seq-to-seq, 포인터-생성기, 커버리지 포인터-생성기, Lead-3).
- 기준선 평가 지표로 ROUGE와 METEOR를 사용한다.
실험 결과
연구 질문
- RQ1WikiHow 데이터셋은 기존 요약 코퍼스에 비해 얼마나 크고 다채로운가?
- RQ2WikiHow의 추상적 콘텐츠 수준은 CNN/Daily Mail에 비해 어떤가?
- RQ3표준 요약 모델은 WikiHow에서 장문 시퀀스 추상 작업의 벤치마크로서 어떻게 성능을 보이는가?
- RQ4압축 비율은 무엇이며 이것이 추상화 난이도에 어떤 함의를 갖는가?
- RQ5뉴스 중심 데이터셋에서 WikiHow의 지식 기반 기사로 기존 기준선이 일반화되는가?
주요 결과
- WikiHow는 평균 기사를 약 579.8단어, 평균 요약은 약 62.1단어인 204,004개의 기사-요약 쌍을 포함한다.
- WikiHow는 CNN/Daily Mail보다 더 높은 압축 비율(2.38)을 보여 추상화 과제가 더 크다.
- 기사와 요약 간의 중복 n-그램이 일반적인 1-그램, 2-그램, 3-그램을 제외하고는 더 적은 추상화된 정보 수준을 나타낸다.
- 기준선(TextRank, 주의 기반 seq-to-seq, 포인터-제너레이터, 커버리지 포인터-제너레이터, Lead-3)은 WikiHow에서 CNN/Daily Mail보다 성능이 떨어져 WikiHow의 도전적이고 다양한 글쓰기 스타일을 강조한다.
- Lead-3는 뉴스가 아닌 글쓰기 스타일로 인해 WikiHow에서 저조한 성능을 보이며, 뉴스 데이터 세트에서의 강력한 성능과 대조를 이룬다.
- 이 논문은 기준선 결과를 제시하고 장기간의 다양하고 추상적인 WikiHow 콘텐츠를 다루기 위한 향상된 모델의 필요성을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.