Skip to main content
QUICK REVIEW

[論文レビュー] User-level sentiment analysis incorporating social networks

Chenhao Tan, Lillian Lee|arXiv (Cornell University)|Sep 27, 2011
Sentiment Analysis and Opinion Mining参考文献 23被引用数 35
ひとこと要約

本稿では、Twitterのフォロワー/フォロー関係および@メンションネットワークを活用して、感情分類の正確性を向上させる半教師付きのユーザーレベル感情分析モデルを提案する。グラフィカルモデルを用いて関連ユーザ間の意見の依存関係をモデル化することで、エッジ品質が高ければスパースなネットワークでも、テキストのみのベースラインよりも統計的に有意な改善を達成する。

ABSTRACT

We show that information about social relationships can be used to improve user-level sentiment analysis. The main motivation behind our approach is that users that are somehow "connected" may be more likely to hold similar opinions; therefore, relationship information can complement what we can extract about a user's viewpoints from their utterances. Employing Twitter as a source for our experimental data, and working within a semi-supervised framework, we propose models that are induced either from the Twitter follower/followee network or from the network in Twitter formed by users referring to each other using "@" mentions. Our transductive learning results reveal that incorporating social-network information can indeed lead to statistically significant sentiment-classification improvements over the performance of an approach based on Support Vector Machines having access only to textual features.

研究の動機と目的

  • 感情分析にソーシャルネットワーク構造を組み込むことで、ユーザーレベルの感情分類を改善すること。
  • ソーシャルネットワーク内のユーザ関係が共通の感情と相関しているかどうかを調査し、ホモフィリー仮説を検証すること。
  • フォロワー/フォロー関係と@メンションネットワークの2種類のネットワークタイプが、感情分類性能に与える影響を評価すること。
  • 相互フォロー(ホモフィリーのみ)と有向関係(注目度を含む)のどちらが、感情予測において優れているかを特定すること。
  • 半教師付き設定における未ラベルデータの影響とエッジ品質がモデル性能に与える影響を評価すること。

提案手法

  • 著者らは、ユーザ感情とそのソーシャル接続の間の依存関係をモデル化するため、隠れグラフィカルモデル(HGM)を用いたトランスダクティブ学習フレームワークを採用する。
  • モデルは2種類のソーシャルネットワークを組み込む:有向のフォロワー/フォローグラフと、ユーザが他のユーザを@で参照する@メンションネットワーク。
  • パラメータは学習ベースの手法(HGM-Learning)で推定され、ベースラインとして多数決による手法(HGM-NoLearning)が用いられる。
  • 感情分類をユーザーレベルのタスクとして扱い、各ユーザの全ツイートの感情を集約するとともに、ネットワーク構造を活用する。
  • 半教師付き設定では、ラベルが付与されたユーザの少数に限定され、未ラベルユーザを介してネットワーク全体に感情情報を伝搬させる。
  • モデルの性能評価は、ラベル付きユーザの最大連結成分における正答率を用い、『Lakers』や『Fox News』といったトピックごとに交差検証が実施される。

実験結果

リサーチクエスチョン

  • RQ1ソーシャルネットワーク構造を統合することで、テキスト特徴量のみに依存する場合と比較して、ユーザーレベルの感情分類性能が向上するか?
  • RQ2フォロワー/フォロー関係と@メンションネットワークのどちらが、感情分類性能をより高めるか?
  • RQ3相互フォロー(ホモフィリーのみ)が、有向フォロー(注目度を含む)よりも感情予測において優れているか?
  • RQ4未ラベルユーザの数がモデル性能に与える影響は何か?また、学習ベースのパラメータ推定が性能低下を緩和できるか?
  • RQ5スパースなネットワークにおいても、高品質なエッジが顕著な性能向上をもたらすか?

主な発見

  • ソーシャルネットワーク情報の統合により、テキストのみのSVMベースラインと比較して、ユーザーレベルの感情分類性能が統計的に有意に向上した。
  • HGM-LearningモデルはHGM-NoLearningベースラインを上回った。これは、学習ベースのパラメータ推定が未ラベルデータを効果的に活用できることを示している。
  • 『Lakers』や『Fox News』といったトピックでは、ネットワーク密度が低くても性能向上が顕著だった。これはエッジ品質が密度よりも重要であることを示唆している。
  • ホモフィリーと注目リンクの両方を組み合わせた構造(相互フォローと有向接続の併用)は、ホモフィリーのみの構造を上回ることもあったが、トピックによって結果は変動した。
  • 非常に少ないエッジ数であっても、高品質な接続(例えば、強い感情相関)が顕著な性能向上をもたらした。これはスパarsityに強く、ロバストであることを示している。
  • 未ラベルデータが増加するにつれてモデル性能が向上した。特に学習ベースのパラメータ推定を用いた場合、スケーラビリティと安定性が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。