Skip to main content
QUICK REVIEW

[論文レビュー] Extraction of Salient Sentences from Labelled Documents

Misha Denil, Alban Demiraj|arXiv (Cornell University)|Dec 21, 2014
Topic Modeling参考文献 30被引用数 85
ひとこと要約

本稿では、ラベル付きドキュメントからトピック関連文を抽出するために文書構造の内省を可能にする階層的畳み込みニューラルネットワークを提案する。コンピュータビジョン分野の可視化技術を注意マップに適用することで、モデルは顕著な文を特定し、ランダム選択や最初/最後の文ヒューリスティクスといったベースラインよりも優れた性能を達成した。抽出された文に対して分類器の精度低下を用いたスケーラブルな評価手法を新規に導入した。

ABSTRACT

We present a hierarchical convolutional document model with an architecture designed to support introspection of the document structure. Using this model, we show how to use visualisation techniques from the computer vision literature to identify and extract topic-relevant sentences. We also introduce a new scalable evaluation technique for automatic sentence extraction systems that avoids the need for time consuming human annotation of validation data.

研究の動機と目的

  • 文書構造の内省を可能にする、顕著な文を特定するためのニューラルネットワークアーキテクチャの開発。
  • コンピュータビジョン分野の可視化技術を応用し、ニューラルネットワークの活性化からタスク関連文を解釈および抽出する。
  • 人的アノテーションが不要なスケーラブルな文抽出システムの評価手法の導入。
  • 映画レビューからの感情関連文抽出において、本手法の有効性の実証。

提案手法

  • 単語レベルで文を処理し、文書レベルでドキュメントを処理する二段階の階層的ConvNetアーキテクチャで、文間でフィルタを共有する。
  • 単語埋め込みを行列に連結し、マックスプーリングとtanh非線形活性化関数を用いた畳み込み層により、文レベルの埋め込みを生成する。
  • 文の埋め込みをドキュメント行列に連結し、2番目のConvNet層が文書レベルの表現を生成して分類に使用する。
  • モデルはソフトマックス分類器を用いてバックプロパゲーションにより学習し、文書の感情を予測する。
  • salience(顕著性)は、最終畳み込み層からの活性化マップを可視化することで特定され、勾配ベースの帰属度により影響力の高い文が特定される。
  • 抽出された文のサブセットに対して分類器の精度を、完全なドキュメントと比較することで、情報保持度を測定する、新規の評価手法を導入。

実験結果

リサーチクエスチョン

  • RQ1文書構造の内省を可能にする階層的ConvNetアーキテクチャを設計できるか?
  • RQ2コンピュータビジョン分野の可視化技術を応用し、NLP分野で顕著でタスク関連の文を特定できるか?
  • RQ3人的アノテーションを必要としないスケーラブルな評価手法を開発できるか?
  • RQ4本手法は、ランダム選択、最初/最後の文ヒューリスティクス、浅いニューラルネットワークといったベースラインと比較して、タスク関連情報の保持にどの程度優れているか?

主な発見

  • 提案されたConvNetモデルは、20%の文しか抽出しなくても、最初/最後の文ヒューリスティクスを含むすべてのベースラインを上回る感情関連情報の保持を達成した。
  • モデルは、物語のあらましや背景情報といった意見を含まない文を一貫して無視し、感情を表現する内容に注目するよう学習した。
  • 評価手法の結果、抽出された文に対して適用した参照用ナイーブベイズ分類器の精度低下は1.5%未満にとどまり、高い情報保持度を示した。
  • 可視化結果から、モデルは明確な感情を表現する文に高い関連スコアを割り当てており、解釈可能性とタスクへの整合性が確認された。
  • 階層的アーキテクチャにより、文レベルの表現学習が効果的に行われ、顕著性検出の正確性が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。