Skip to main content
QUICK REVIEW

[論文レビュー] Sentiment Analysis in the News

Alexandra Balahur, Ralf Steinberger|arXiv (Cornell University)|Sep 24, 2013
Sentiment Analysis and Opinion Mining参考文献 14被引用数 210
ひとこと要約

本稿では、名前付きエンティティの周囲のウィンドウを用いた分析と、分野特異的アラート語をセンチメントリソースからフィルタリングすることにより、ニュース記事におけるエンティティ指向のセンチメント分析を提案する。主な貢献は、分野固有の語彙(特にニュース分類リストからの語彙)を除外することで、性能が顕著に向上することであり、6語ウィンドウと組み合わせたJRC TonalityおよびMicroWNリソースを用いることで最高82%の正確度を達成した。

ABSTRACT

Recent years have brought a significant growth in the volume of research in sentiment analysis, mostly on highly subjective text types (movie or product reviews). The main difference these texts have with news articles is that their target is clearly defined and unique across the text. Following different annotation efforts and the analysis of the issues encountered, we realised that news opinion mining is different from that of other text types. We identified three subtasks that need to be addressed: definition of the target; separation of the good and bad news content from the good and bad sentiment expressed on the target; and analysis of clearly marked opinion that is expressed explicitly, not needing interpretation or the use of world knowledge. Furthermore, we distinguish three different possible views on newspaper articles - author, reader and text, which have to be addressed differently at the time of analysing sentiment. Given these definitions, we present work on mining opinions about entities in English language news, in which (a) we test the relative suitability of various sentiment dictionaries and (b) we attempt to separate positive or negative opinion from good or bad news. In the experiments described here, we tested whether or not subject domain-defining vocabulary should be ignored. Results showed that this idea is more appropriate in the context of news opinion mining and that the approaches taking this into consideration produce a better performance.

研究の動機と目的

  • 製品レビュー や 映画レビュー とは根本的に異なる、間接的な表現と複数のターゲットを伴うニュースにおけるセンチメント分析の課題に対処すること。
  • エンティティ指向のセンチメントと事実的ニュース内容(良いニュース または 悪いニュース)を明確に区別することで、タスクを明確化すること。
  • ニュース文脈において、分野固有の語彙(例:「危機」「災害」)をセンチメントリソースから除外することで、その影響を評価すること。
  • 全文の分析ではなく、名前付きエンティティの周囲の小さなテキストウィンドウに焦点を当てることで、性能を向上させること。
  • 異なるセンチメントリソースとその組み合わせが、ニュースセンチメント分類に与える影響を調査すること。

提案手法

  • 本手法は、ニュースの引用文における名前付きエンティティを中心に、固定サイズの語ウィンドウ(3語、6語、10語)を用いてセンチメント分析を実行する。
  • 複数のセンチメントリソース(JRC Tonality、MicroWordNet、WordNet-Affect、SentiWordNet)を評価し、ニュースカテゴリからの分野特異的アラート語をフィルタリングした状態としない状態の両方を検証する。
  • システムは、EMM Newsシステムのカテゴリ定義を用いて、分野固有のラベル語(例:「危機」「津波」)をセンチメント分析の対象外にすることを特定・実行する。
  • 性能評価は、引用文におけるセンチメントの手動アノテーションを用い、正しく分類されたセンチメントフレーズの割合として正確度を測定する。
  • 本手法は、「良いニュース」または「悪いニュース」を事実的コンテンツとみなす一方で、エンティティ指向の評価的表現をセンチメントと分離することで、ニュースコンテンツからのセンチメントを分離する。
  • 誤り分析により、センチメント語を含まないニュートラルな引用文、皮肉、慣用句、共参照や複数の意見ターゲットによる誤分類といった失敗モードを同定する。

実験結果

リサーチクエスチョン

  • RQ1センチメントリソースから分野特異的語彙を除外することで、ニュース記事におけるセンチメント分類の正確度が向上するか?
  • RQ2エンティティの周囲の小さなテキストウィンドウに適用するセンチメント分析と、全文に適用する分析とでは、性能にどのような差が生じるか?
  • RQ3どのセンチメントリソースの組み合わせが、ニュースセンチメント分類において最高の正確度を達成するか?
  • RQ4慣用句、皮肉、明示的なセンチメント語の欠如が、ニュースセンチメント分類における誤分類にどの程度寄与しているか?
  • RQ5著者、読者、本文という異なる視点が、ニュースにおけるセンチメントの解釈とアノテーションにどのように影響を与えるか?

主な発見

  • 分野特異的アラート語をセンチメントリソースから除外することで、性能が顕著に向上し、特にJRC Tonality や MicroWN などのリソースで顕著であった。
  • 最高の正確度82%は、6語ウィンドウと組み合わせたJRC Tonality および MicroWN リソースを用いることで達成された。
  • 全文のセンチメント分析を用いた場合、性能が低下したため、エンティティ周辺の局所的文脈が、全体的な記事レベルのセンチメント分析よりも効果的であることが示された。
  • 一部のリソース(例:WordNet-Affect や SentiWordNet)は、体系的な過剰分類バイアスを示しており(例:否定的または肯定的と過剰に分類)、問題を引き起こした。
  • 主な誤り要因として、明示的なセンチメント語が欠落しているにもかかわらず、間接的に意見を示す引用文(例:「Xに十分な時間を与えた」や「ハチドリの巣を掻き乱した」)が存在した。
  • アンファラ・リゾリューション(共参照解消)ツールは、予備テストでシステム性能を低下させたため、ニュースにおけるセンチメントタスクにおける共参照解消の課題が示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。