Skip to main content
QUICK REVIEW

[論文レビュー] LCSTS: A Large Scale Chinese Short Text Summarization Dataset

Baotian Hu, Qingcai Chen|arXiv (Cornell University)|Jun 19, 2015
Natural Language Processing Techniques参考文献 19被引用数 23
ひとこと要約

本稿では、200万件を超えるSina Weibo投稿とその著者による要約を含む大規模な中国語短文要約データセット、LCSTSを紹介する。アテンションを備えたRNNベースのエンコーダデコーダモデルを用いて、ROUGEスコアが高く(ROUGE-Lで最大0.299)、低リソース環境におけるニューラル抽象的要約モデルの学習およびベンチマークの有効性を示している。

ABSTRACT

Automatic text summarization is widely regarded as the highly difficult problem, partially because of the lack of large text summarization data set. Due to the great challenge of constructing the large scale summaries for full text, in this paper, we introduce a large corpus of Chinese short text summarization dataset constructed from the Chinese microblogging website Sina Weibo, which is released to the public {http://icrc.hitsz.edu.cn/Article/show/139.html}. This corpus consists of over 2 million real Chinese short texts with short summaries given by the author of each text. We also manually tagged the relevance of 10,666 short summaries with their corresponding short texts. Based on the corpus, we introduce recurrent neural network for the summary generation and achieve promising results, which not only shows the usefulness of the proposed corpus for short text summarization research, but also provides a baseline for further research on this topic.

研究の動機と目的

  • Sina Weiboから自然にアノテートされたデータを抽出することで、大規模かつ高品質な中国語テキスト要約データセットの不足を解消すること。
  • 中国語におけるニューラル抽象的要約モデルの学習および評価に適した、公開可能な大規模データセットを構築すること。
  • 再現可能なベンチマーク評価を可能にするために、標準化された訓練およびテスト分割を提供すること。
  • 提案されたデータセットを用いて、中国語短文要約におけるRNNベースのモデルの有効性を検証すること。
  • 将来的な研究のためのベースラインパフォーマンスを、アテンションを備えたシーケンス・ツー・シーケンスモデルを用いて確立すること。

提案手法

  • データセットは、公式Sina Weiboアカウントから収集された短いテキストとその著者による要約を用いて構築された。
  • データ品質の妥当性を検証するため、10,666件のサブセットを手動で関連性アノテーションした。
  • 文字ベースおよび語彙ベースの入力トークン化を用いたRNNベースのエンコーダデコーダフレームワークを実装した。
  • モデルはゲート付き再帰ユニット(GRUs)を用い、デコーディング中にエンコーダの隠れ状態に注目するアテンション機構を統合した。
  • 2つのアーキテクチャを評価した:1つは最終エンコーダ状態のみを用いる(文脈なし)、もう1つはすべてのエンコーダ隠れ状態を用いる(文脈あり)。
  • トレーニングはTesla M2090 GPUを用い、ADADELTA最適化法を用い、デコードにはビームサーチ(ビームサイズ=10)を実装した。

実験結果

リサーチクエスチョン

  • RQ1ソーシャルメディアから自然にアノテートされた中国語短文要約のための大規模データセットを効果的に構築できるか?
  • RQ2中国語要約において、異なる入力表現(文字ベース対語彙ベース)がRNNベースのモデルのパフォーマンスに与える影響は何か?
  • RQ3シンプルなエンコーダデコーダ構成に比べ、アテンション機構を組み込むことで要約品質が向上するか?
  • RQ4限られた手動アノテーションの下で、モデルのパフォーマンスと人間評価の相関関係はどの程度か?
  • RQ5語彙ベースモデルにおいて、レアまたはOOV(語彙外)エンティティの要約生成に直面する主な課題は何か?

主な発見

  • LCSTSデータセットには、200万件を超える実際の中国語短文とその要約が含まれており、現在までに公開されている最大の中国語要約データセットである。
  • 文脈アテンションを備えたRNNモデルが最高のパフォーマンスを示し、文字ベースの入力でROUGE-L F1スコアが0.299に達した。
  • 文字ベースの入力が語彙ベースの入力を上回り、ROUGE-Lスコアは0.299(文字ベース)対0.241(語彙ベース)であり、OOV(語彙外)問題の低減が主な要因とされる。
  • 文脈アテンションを備えたモデルは、文脈なしのベースラインモデルを著しく上回り、すべてのエンコーダ状態に注目することで要約品質が向上することが示された。
  • 語彙ベースのモデルでは、レアな名前(例:"ビジョン・オプトエレクトロニクス")に対して多くのUNKトークンが生成され、レアエンティティの処理の難しさが浮き彫りになった。
  • これらの結果から、LCSTSのような大規模で高品質なデータセットで学習された深層学習モデルが、高品質な抽象的要約を生成できることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。