QUICK REVIEW

[論文レビュー] Measuring Praise and Criticism: Inference of Semantic Orientation from Association

Peter D. Turney, Michael L. Littman|ArXiv.org|Sep 19, 2003

Sentiment Analysis and Opinion Mining参考文献 19被引用数 202

ひとこと要約

本稿では、事前に定義された肯定的・否定的パラダイム語との統計的関連性を用いて、語の意味的傾向（肯定的または否定的センチメント）を自動的に測定する手法を提案する。PMI（ポイントワイズ相互情報量）とLSA（顕著な意味的分析）を用いることで、3,596語のデータセットで82.8％の精度を達成し、やや穏やかなセンチメントを示す語を除いた場合には95％を超える精度を示した。これにより、語の関連性から称賛と批判を効果的に推論できることを示している。

ABSTRACT

The evaluative character of a word is called its semantic orientation. Positive semantic orientation indicates praise (e.g., "honest", "intrepid") and negative semantic orientation indicates criticism (e.g., "disturbing", "superfluous"). Semantic orientation varies in both direction (positive or negative) and degree (mild to strong). An automated system for measuring semantic orientation would have application in text classification, text filtering, tracking opinions in online discussions, analysis of survey responses, and automated chat systems (chatbots). This paper introduces a method for inferring the semantic orientation of a word from its statistical association with a set of positive and negative paradigm words. Two instances of this approach are evaluated, based on two different statistical measures of word association: pointwise mutual information (PMI) and latent semantic analysis (LSA). The method is experimentally tested with 3,596 words (including adjectives, adverbs, nouns, and verbs) that have been manually labeled positive (1,614 words) and negative (1,982 words). The method attains an accuracy of 82.8% on the full test set, but the accuracy rises above 95% when the algorithm is allowed to abstain from classifying mild words.

研究の動機と目的

語の意味的傾向（称賛（肯定的）と批判（否定的））を自動的に測定するための手法を開発すること。
事前に定義された肯定的・否定的語の集合との統計的関連性に基づいて意味的傾向を推論すること。
3,596語の語彙を含む、手動でラベル付けされた大規模データセットを用いて、手法の性能を評価すること。
やや穏やかなセンチメントを示す語を除外した場合の分類精度への影響を評価すること。

提案手法

手法は、ターゲット語が肯定的・否定的パラダイム語とどれほど関連しているかを測定することで、意味的傾向を算出する。
2つの統計的指標を用いる：ポイントワイズ相互情報量（PMI）と顕著な意味的分析（LSA）を用いて、語の関連性を定量化する。
肯定的意味的傾向スコアは、肯定的パラダイム語との平均関連性から、否定的意味的傾向スコアは、否定的パラダイム語との平均関連性からそれぞれ導出される。
最終的な意味的傾向は、肯定的関連性スコアと否定的関連性スコアの差分によって決定される。
肯定的スコアが否定的スコアを上回る場合、語は肯定的と分類され、逆に否定的スコアが上回る場合は否定的と分類される。
やや穏やかなセンチメントを示す語については分類を控える仕組みを備えており、これにより全体の精度が向上する。

実験結果

リサーチクエスチョン

RQ1少数の肯定的・否定的パラダイム語との語の関連性から、意味的傾向を信頼性高く推論できるか？
RQ2PMIとLSAは、品詞の種類にかかわらず、意味的傾向を効果的に捉えられるか？
RQ3やや穏やかなセンチメントを示す語を除外することで、分類精度が向上するか？
RQ4本手法は、3,596語の手動ラベル付き大規模データセット上でどの程度の性能を示すか？
RQ5本手法は、テキストにおける称賛と批判の測定において、他の代替手法と比較してどのように優れているか？

主な発見

本手法は、名詞、副詞、形容詞、動詞を含む3,596語の全テストセットで82.8％の精度を達成した。
やや穏やかなセンチメントを示す語の分類を回避できるようにした場合、精度は95％を超えた。
ポイントワイズ相互情報量（PMI）と顕著な意味的分析（LSA）の両方を用いることで、優れた性能が得られ、両統計的手法の有効性が裏付けられた。
結果から、膨大な手動ラベル付けを要せずとも、語の関連性から意味的傾向を効果的に推論できることが示された。
本アプローチは、テキスト分類、意見追跡、チャットボットシステムなどの応用分野において強く有望な可能性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。