Skip to main content
QUICK REVIEW

[論文レビュー] Classifying informative and imaginative prose using complex networks

Henrique Ferraz de Arruda, Luciano da Fontoura Costa|arXiv (Cornell University)|Jul 28, 2015
Advanced Text Analysis Techniques参考文献 12被引用数 23
ひとこと要約

本論文では、語の隣接ネットワークにおける機能語の局所的トポロジーやダイナミクス的特徴をモデル化することで、文章構造を捉えるネットワークベースの新規手法を提案し、有用な文章と想像的散文を分類する。対称性と可及性の指標を導入することで、最大95%の正確性を達成し、構造的ネットワーク特徴が従来の意味的アプローチを補完することを示している。

ABSTRACT

Statistical methods have been widely employed in recent years to grasp many language properties. The application of such techniques have allowed an improvement of several linguistic applications, which encompasses machine translation, automatic summarization and document classification. In the latter, many approaches have emphasized the semantical content of texts, as it is the case of bag-of-word language models. This approach has certainly yielded reasonable performance. However, some potential features such as the structural organization of texts have been used only on a few studies. In this context, we probe how features derived from textual structure analysis can be effectively employed in a classification task. More specifically, we performed a supervised classification aiming at discriminating informative from imaginative documents. Using a networked model that describes the local topological/dynamical properties of function words, we achieved an accuracy rate of up to 95%, which is much higher than similar networked approaches. A systematic analysis of feature relevance revealed that symmetry and accessibility measurements are among the most prominent network measurements. Our results suggest that these measurements could be used in related language applications, as they play a complementary role in characterizing texts.

研究の動機と目的

  • テクストネットワークから導出される構造的特徴が、特に有用な文章と想像的散文の文章スタイルを効果的に分類できるかどうかを調査すること。
  • 従来のネットワーク表現を拡張し、全体のネットワーク指標ではなく、特定のノード(機能語)の局所的トポロジカル性質に焦点を当てる。
  • 隣接ノードへのアクセスの一貫性と有効な近隣ノード数を捉える、新規のネットワーク測定指標(対称性と可及性)を評価すること。
  • 提案されたネットワークベースの手法と、袋の語(bag-of-words)、ストップワード頻度、文字ビグラムといった従来のスタイリスティック的手法との性能を比較すること。
  • 多変量分類フレームワークにおいて、スタイルのカテゴリを区別するのに最も関連性の高いネットワーク特徴を同定すること。

提案手法

  • ノードが語を表し、エッジが語の文法的隣接関係を表す語の隣接ネットワークをテキストから構築する。
  • 特定の機能語(例:代名詞、前置詞)を中核ノードとして選び、局所的な構造的パターンを捉えるために局所的トポロジーに注目する。
  • ネットワークにおける隣接ノードへのアクセスの一貫性を定量化するため、対称性測定を導入する。
  • 可及性をノード次数の拡張的測定として定義し、到達可能なノードの有効数を反映させることで、ネットワークの到達可能性を捉える。
  • これらのネットワーク指標から導出された特徴量を用いて、K-近傍法(K-NN)や他の分類器を用いた教師あり分類を実施する。
  • 情報ゲインと多変量特徴の関連性分析を用い、分類に最も効果的なネットワーク特徴を同定する。

実験結果

リサーチクエスチョン

  • RQ1語の隣接ネットワークにおける機能語の局所的トポロジカル特徴は、有用な文章と想像的散文を効果的に区別できるか?
  • RQ2対称性と可及性の指標は、従来のネットワーク指標と比較して、文章スタイル分類にどの程度優れているか?
  • RQ3ストップワード頻度や文字ビグラムといった従来のスタイリスティック手法と比較して、ネットワークベースの特徴は分類正確性をどの程度向上させるか?
  • RQ4多変量分類の文脈において、どのネットワーク測定が2つの文章スタイルを区別するのに最も関連性が高いか?
  • RQ5提案されたネットワークモデルは、意味的アプローチと併用する補完的ツールとして、テキスト分類タスクに有効に機能できるか?

主な発見

  • 提案手法は、ネットワークベースの特徴を用いて、有用な文章と想像的散文を区別する分類において最大95%の正確性を達成した。
  • K-NN分類器が最も高い性能を示し、従来の語の隣接ネットワークモデルと比較して、拡張されたネットワークモデルを用いることで正確性が23%向上した。
  • 対称性と可及性の指標が最も情報量の多い特徴として特定され、これらが文章スタイル分類に強い識別力を持っていることが示された。
  • 結果から、機能語の局所的トポロジカル特徴が意味的および統計的手法と補完的であることが明らかとなり、分類性能の向上に寄与することがわかった。
  • 主成分分析により、ネットワーク特徴が捉えたところ、有用な文章のスタイルは想像的散文よりもより規則的かつ変動が小さいことが確認された。
  • ネットワークベースのアプローチは、従来の手法(例:潜在的意味分析、文字ビグラム頻度)を上回ったが、後者は98%の正確性を達成したが、異なる特徴空間に依存していた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。