Skip to main content
QUICK REVIEW

[論文レビュー] Automatic Detection of Text Genre

Brett Kessler, Geoffrey Nunberg|ArXiv.org|Jul 8, 1997
Authorship Attribution and Profiling参考文献 10被引用数 206
ひとこと要約

本稿は、表層的特徴(語彙選択、構文、話法構造など)としての言語的側面の集合体としてジャンルをモデル化することで、自動テキストジャンル検出のフレームワークを提案している。表層的特徴のみで、構造的特徴と同等の性能を達成できることを示しており、自然言語処理および情報検索分野における応用を可能にする実用的でスケーラブルなジャンル分類手法が主な貢献である。

ABSTRACT

As the text databases available to users become larger and more heterogeneous, genre becomes increasingly important for computational linguistics as a complement to topical and structural principles of classification. We propose a theory of genres as bundles of facets, which correlate with various surface cues, and argue that genre detection based on surface cues is as successful as detection based on deeper structural properties.

研究の動機と目的

  • 大規模で多様性のあるテキストデータベースにおける、体系的かつ計算的に実行可能な自動テキストジャンル分類手法の開発。
  • より深い構造的分析に依存せずに、表層的言語的特徴が、ジャンル検出の精度を同等に達成できるかどうかの調査。
  • 自然言語処理システム設計の向上を目的として、物語的性質、フォーマルさ、対象読者など、関連する側面の集合体としてのジャンルの分類体系の構築。
  • 情報検索および自然言語処理タスクにおけるジャンル分類の実用的ツールとしての可能性の評価。
  • ジャンルを単一の原子的属性ではなく、多次元的かつ非階層的な分類システムとして定義する理論的課題の解決。

提案手法

  • ジャンルを、物語的性質、説得的機能、フォーマルさ、対象読者など、直交する言語的側面の集合体としてモデル化する(各側面には特徴的な表層的特徴が関連付けられる)。
  • トレーニングおよび評価データセットとしてブラウンコーパスを用い、ジャンル、Brow、およびその他の構造的特徴を含む複数のジャンル的側面でテキストをアノテートする。
  • ロジスティック回帰(LR)およびフィードフォワードニューラルネットワークを用い、語の頻度、品詞のパターン、代名詞の使用など、表層的特徴に基づく分類と、動詞の時制分布、節構造など、構造的特徴に基づく分類を実行する。
  • 表層的特徴および構造的特徴の両方でモデルをトレーニングおよび評価し、異なる側面レベルでの相対的有効性を比較する。
  • 高次元の言語的特徴に起因する過学習を軽減するため、変数選択技術を用いる。
  • 各側面ごとの正解率を指標として用い、最も頻度の高いカテゴリを常に予測するベースラインと比較して性能を評価する。

実験結果

リサーチクエスチョン

  • RQ1より深い構造的・意味的分析に依存せずに、表層的言語的特徴のみでジャンルを信頼性高く検出できるか?
  • RQ2異なるジャンル的側面において、表層的特徴に基づくジャンル分類の性能と、構造的特徴に基づく性能の比較は?
  • RQ3特定の側面(例:物語的性質、意見、フォーマルさ)が、実際のテキストコーパスにおいてどの程度、明確な言語的パターンと相関しているか?
  • RQ4編集者寄稿や法的文書など、特定のジャンルタイプではなぜ分類精度が低くなるのか?これはデータのスパarsityや意味的重複に起因するのか?
  • RQ5ジャンルの側面ベースの分解は、情報検索などの下流NLPアプリケーションにおけるジャンル分類の精度と実用性を向上させることができるか?

主な発見

  • 表層的特徴のみで、構造的特徴と同等のジャンル分類精度が達成され、全変数平均で表層的特徴が77.0%、構造的特徴が77.5%の性能を示した。
  • 特定の変数では表層的特徴がやや劣る(78.4%)が、構造的特徴(78.9%)と比較して有意差はなく(二項分布モデル下でp = 0.41)、差は統計的に有意でない。
  • 報道記事および小説ジャンルでは特に高い性能を示したが、編集者寄稿および法的文書では精度が低く、データスパarsityおよび意味的重複に起因すると考えられる。
  • 非小説を編集者寄稿と誤分類する傾向は、これらのジャンルが密接に関連しており、意見や機関的著作者性といった追加の側面を含む、より包括的な非小説カテゴリのサブタイプとしてモデル化すべきである可能性を示唆している。
  • Brow特徴(フォーマルさの指標)は、テキストが高Browかどうかの二値分類においてのみ高い正確性を示しており、記事レベルでのトレーニングデータラベル付けに問題がある可能性を示唆している。
  • ニューラルネットワークは平均的にロジスティック回帰を上回るが、一部の識別では変動が大きく、過学習のリスクと高次元特徴空間における変数選択の重要性を浮き彫りにしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。