Skip to main content
QUICK REVIEW

[論文レビュー] WikiHow: A Large Scale Text Summarization Dataset

Mahnaz Koupaee, William Yang Wang|arXiv (Cornell University)|Oct 18, 2018
Topic Modeling参考文献 14被引用数 178
ひとこと要約

WikiHowは、WikiHow由来の200k以上の記事と要約のペアからなる大規模で多様なテキスト要約データセットを導入し、長いシーケンスの抽象的タスクと新しいベースラインを可能にします。

ABSTRACT

Sequence-to-sequence models have recently gained the state of the art performance in summarization. However, not too many large-scale high-quality datasets are available and almost all the available ones are mainly news articles with specific writing style. Moreover, abstractive human-style systems involving description of the content at a deeper level require data with higher levels of abstraction. In this paper, we present WikiHow, a dataset of more than 230,000 article and summary pairs extracted and constructed from an online knowledge base written by different human authors. The articles span a wide range of topics and therefore represent high diversity styles. We evaluate the performance of the existing methods on WikiHow to present its challenges and set some baselines to further improve it.

研究の動機と目的

  • ニュース記事を超える大規模で多様な要約データの必要性を動機づける。
  • 長いシーケンスの抽象的要約に適した、複数トピックを含む大規模データセットとしてWikiHowを紹介する。
  • データセットを特徴づける抽象度と圧縮の指標を定義する。
  • WikiHow上での基準線(抽出的および抽象的ベースライン)を提供して、ベンチマーク参照を確立する。

提案手法

  • Python Scrapyを使用してWikiHowをクロールし、20以上のカテゴリにまたがる記事を収集する。
  • 太字の手順要約を参照として取り、残りの手順の説明を結合して記事を作成する。
  • 要約が記事本文より短くないペアを除外し、最終的に204,004ペアを得る。
  • 参照要約を記事と比較して抽象度と圧縮指標を定義する(n-gramの多様性/一意性と平均文長など)。
  • WikiHowとCNN/Daily Mailで、TextRank・注意機構付きseq-to-seq・ポインタ生成器・カバレージ付きポインタ生成器・Lead-3などの既存の抽出的・抽象的方法を評価する。
  • ROUGEとMETEORをベースラインの評価指標として用いる。

実験結果

リサーチクエスチョン

  • RQ1既存の要約コーパスと比較して、WikiHowデータセットはどれくらい大規模で多様ですか?
  • RQ2WikiHowの抽象的内容のレベルはCNN/Daily Mailと比べてどうですか?
  • RQ3長いシーケンスの抽象的タスクのベンチマークとして、標準的な要約モデルはWikiHowでどの程度機能しますか?
  • RQ4圧縮比はいくつで、抽象的難易度にどのような影響を与えますか?
  • RQ5既存のベースラインはニュース中心のデータセットからWikiHowのナレッジベース記事へ一般化しますか?

主な発見

  • WikiHowは204,004の記事-要約ペアを含み、平均記事長は約579.8語、平均要約長は約62.1語です。
  • WikiHowはCNN/Daily Mailより高い圧縮比(2.38)を示し、より大きな抽象的課題を示唆します。
  • WikiHowには記事と要約の間で共通するユニグラム・バイグラム・トライグラムを除くと、抽象度が高い。
  • ベースライン(TextRank、注意機構付きseq-to-seq、ポインター-ジェネレーター、カバレージ付きポインター-ジェネレーター、Lead-3)は、WikiHow上でCNN/Daily Mailより低性能であり、WikiHowの挑戦的で多様な文体を浮き彫りにしています。
  • Lead-3はニュース以外の文体のためWikiHowで低性能であり、ニュースデータセットでの高い性能とは対照的です。
  • 本稿はベースライン結果を提供し、長く多様で抽象的なWikiHowコンテンツを扱える改善されたモデルの必要性を強調します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。