QUICK REVIEW

[論文レビュー] User-level sentiment analysis incorporating social networks

Chenhao Tan, Lillian Lee|arXiv (Cornell University)|Sep 27, 2011

Sentiment Analysis and Opinion Mining参考文献 23被引用数 35

ひとこと要約

本稿では、Twitterのフォロワー/フォロー関係および@メンションネットワークを活用して、感情分類の正確性を向上させる半教師付きのユーザーレベル感情分析モデルを提案する。グラフィカルモデルを用いて関連ユーザ間の意見の依存関係をモデル化することで、エッジ品質が高ければスパースなネットワークでも、テキストのみのベースラインよりも統計的に有意な改善を達成する。

ABSTRACT

We show that information about social relationships can be used to improve user-level sentiment analysis. The main motivation behind our approach is that users that are somehow "connected" may be more likely to hold similar opinions; therefore, relationship information can complement what we can extract about a user's viewpoints from their utterances. Employing Twitter as a source for our experimental data, and working within a semi-supervised framework, we propose models that are induced either from the Twitter follower/followee network or from the network in Twitter formed by users referring to each other using "@" mentions. Our transductive learning results reveal that incorporating social-network information can indeed lead to statistically significant sentiment-classification improvements over the performance of an approach based on Support Vector Machines having access only to textual features.

研究の動機と目的

感情分析にソーシャルネットワーク構造を組み込むことで、ユーザーレベルの感情分類を改善すること。
ソーシャルネットワーク内のユーザ関係が共通の感情と相関しているかどうかを調査し、ホモフィリー仮説を検証すること。
フォロワー/フォロー関係と@メンションネットワークの2種類のネットワークタイプが、感情分類性能に与える影響を評価すること。
相互フォロー（ホモフィリーのみ）と有向関係（注目度を含む）のどちらが、感情予測において優れているかを特定すること。
半教師付き設定における未ラベルデータの影響とエッジ品質がモデル性能に与える影響を評価すること。

提案手法

著者らは、ユーザ感情とそのソーシャル接続の間の依存関係をモデル化するため、隠れグラフィカルモデル（HGM）を用いたトランスダクティブ学習フレームワークを採用する。
モデルは2種類のソーシャルネットワークを組み込む：有向のフォロワー/フォローグラフと、ユーザが他のユーザを@で参照する@メンションネットワーク。
パラメータは学習ベースの手法（HGM-Learning）で推定され、ベースラインとして多数決による手法（HGM-NoLearning）が用いられる。
感情分類をユーザーレベルのタスクとして扱い、各ユーザの全ツイートの感情を集約するとともに、ネットワーク構造を活用する。
半教師付き設定では、ラベルが付与されたユーザの少数に限定され、未ラベルユーザを介してネットワーク全体に感情情報を伝搬させる。
モデルの性能評価は、ラベル付きユーザの最大連結成分における正答率を用い、『Lakers』や『Fox News』といったトピックごとに交差検証が実施される。

実験結果

リサーチクエスチョン

RQ1ソーシャルネットワーク構造を統合することで、テキスト特徴量のみに依存する場合と比較して、ユーザーレベルの感情分類性能が向上するか？
RQ2フォロワー/フォロー関係と@メンションネットワークのどちらが、感情分類性能をより高めるか？
RQ3相互フォロー（ホモフィリーのみ）が、有向フォロー（注目度を含む）よりも感情予測において優れているか？
RQ4未ラベルユーザの数がモデル性能に与える影響は何か？また、学習ベースのパラメータ推定が性能低下を緩和できるか？
RQ5スパースなネットワークにおいても、高品質なエッジが顕著な性能向上をもたらすか？

主な発見

ソーシャルネットワーク情報の統合により、テキストのみのSVMベースラインと比較して、ユーザーレベルの感情分類性能が統計的に有意に向上した。
HGM-LearningモデルはHGM-NoLearningベースラインを上回った。これは、学習ベースのパラメータ推定が未ラベルデータを効果的に活用できることを示している。
『Lakers』や『Fox News』といったトピックでは、ネットワーク密度が低くても性能向上が顕著だった。これはエッジ品質が密度よりも重要であることを示唆している。
ホモフィリーと注目リンクの両方を組み合わせた構造（相互フォローと有向接続の併用）は、ホモフィリーのみの構造を上回ることもあったが、トピックによって結果は変動した。
非常に少ないエッジ数であっても、高品質な接続（例えば、強い感情相関）が顕著な性能向上をもたらした。これはスパarsityに強く、ロバストであることを示している。
未ラベルデータが増加するにつれてモデル性能が向上した。特に学習ベースのパラメータ推定を用いた場合、スケーラビリティと安定性が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。