Skip to main content
QUICK REVIEW

[論文レビュー] Toward Network-based Keyword Extraction from Multitopic Web Documents

Sabina Šišović, Sanda Martinčić-Ipšić|arXiv (Cornell University)|Jul 14, 2014
Advanced Text Analysis Techniques被引用数 3
ひとこと要約

この論文は、重み付き有向共起ネットワークにおけるイン/アウト選択性測度を用いて、マルチトピックなクロアチア語Webドキュメント向けに教師なしでネットワークベースのキーワード抽出手法を提案する。単語ペアをイン/アウト選択性と重みの組み合わせに基づいてランク付けし、ストップワードおよび高重みフィルタを適用することで、語形変形化や品詞タグ付けを必要とせず、ストップワードを効果的に除外し、標準的な中心性測度よりも優れた性能を発揮する。

ABSTRACT

In this paper we analyse the selectivity measure calculated from the complex network in the task of the automatic keyword extraction. Texts, collected from different web sources (portals, forums), are represented as directed and weighted co-occurrence complex networks of words. Words are nodes and links are established between two nodes if they are directly co-occurring within the sentence. We test different centrality measures for ranking nodes - keyword candidates. The promising results are achieved using the selectivity measure. Then we propose an approach which enables extracting word pairs according to the values of the in/out selectivity and weight measures combined with filtering.

研究の動機と目的

  • 複数の主題と不要なコンテンツを含むノイズの多いマルチトピックWebドキュメントからのキーワード抽出の課題に対処すること。
  • 特に選択性を用いたネットワーク中心性測度が、複雑で現実的なWebテキストにおける意味的に重要なキーワードを同定するのに有効であるかを検討すること。
  • 最小限の前処理(ストップワードリストのみ)で済む、教師なしでドメインに依存しない手法を開発すること。
  • 選択性が、頻出だが機能的に意味のない語(例:ストップワード)と意味的に豊かな複合語や固有名詞を効果的に区別できるかを調査すること。

提案手法

  • 文単位で直接共起する語をエッジとする重み付き有向共起ネットワークをクロアチア語Webテキストから構築する。
  • イン/アウト選択性測度を適用:$ e^{in/out}_i = \frac{s^{in/out}_i}{k^{in/out}_i} $、ここで $ s^{in/out}_i $ はノード $ i $ のイン/アウト強度、$ k^{in/out}_i $ はイン/アウト次数である。
  • イン/アウト選択性とエッジ重みの組み合わせ値に基づいて語ペアをランク付けし、高潜在力のキーワード候補を特定する。
  • 2つのフィルタを適用:(1) ストップワードフィルタで上位ランクのタプルから機能語を除外し、(2) 高重みフィルタで共起頻度が高いためにのみエッジを保持する。
  • 語形変形化や品詞タグ付けを一切必要とせず、外部知識としてストップワードリストのみを用いる。
  • 4つのクロアチア語Webドキュメントコレクション(例:ニュースポータル、立法機関サイト)を用いて評価し、多様なトピックにわたる堅牢性を検証する。

実験結果

リサーチクエスチョン

  • RQ1選択性測度は、マルチトピックなWebテキストにおいて、頻出だが機能的に意味のない語(例:ストップワード)と意味的に意味のあるキーワードを効果的に区別できるか?
  • RQ2選択性に基づくランク付けは、従来の中心性測度(次数、近接度、媒介性)と比較して、キーワード抽出性能で優れているか?
  • RQ3語形変形化などの言語的前処理を伴わないネットワークベースのアプローチが、ノイズが多くマルチトピックなクロアチア語Webドキュメントから意味のあるキーワードをどれほど効果的に抽出できるか?
  • RQ4ストップワードフィルタと高重みフィルタの両方のフィルタリング戦略が、抽出されたキーワード候補の品質をどの程度向上させるか?

主な発見

  • 選択性測度は次数、近接度、媒介性中心性を上回り、これらの標準的測度ではストップワードが上位10語にランクインしていたのに対し、本手法はそれを効果的に回避した。
  • 高いイン/アウト選択性値は、意味的に豊かな語群(例:'narodne novine'(ナロドネ・ノヴィネ)や'srpsku nacionalnu'(セルビア国立))を効果的に同定した。これらの語群は立法文書において重要なキーフレーズである。
  • ストップワードフィルタの適用により、上位ランクのタプルから機能語が除去され、よりオープンクラスの意味のある語が得られるようになり、キーワード候補の品質が著しく向上した。
  • 高重みフィルタにより、'republika hrvatska'(クロアチア共和国) や 'albansku nacionalnu'(アルバニア国立) といった新たな関連キーワード候補が得られ、フィルタリングなしの結果では顕著ではなかった。
  • イン/アウト選択性と重みフィルタリングの組み合わせにより、'upravni spor'(行政訴訟) や 'nadzorni odbor'(監査委員会) といった意味的・文脈的に整合性の高いキーワードタプルが得られた。
  • 語形変形化や品詞タグ付けを一切必要とせず、大規模でノイズの多いマルチトピックデータセットに対しても堅牢に意味のあるキーワードを抽出できた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。