Skip to main content
QUICK REVIEW

[論文レビュー] Unifying Topic, Sentiment & Preference in an HDP-Based Rating Regression Model for Online Reviews

Zheng Chen, Yong Zhang|arXiv (Cornell University)|Nov 20, 2016
Recommender Systems and Techniques被引用数 3
ひとこと要約

本稿では、トピック、センチメント、ユーザープレファレンスを独立要因として統合するHDPベースのレーティング回帰モデルTSPRAを提案する。このモデルは、レーティング予測と重要な製品的要因の特定を可能にし、ユーザープレファレンスをセンチメントから分離し、HDPを用いて自動的にトピックを発見することで、FLAMEを上回るレーティング予測性能を達成するとともに、ユーザーが重視しているが低評価を受けている「重要な側面(critical aspects)」を特定する。これにより、製品改善を的確に指向できる。

ABSTRACT

This paper proposes a new HDP based online review rating regression model named Topic-Sentiment-Preference Regression Analysis (TSPRA). TSPRA combines topics (i.e. product aspects), word sentiment and user preference as regression factors, and is able to perform topic clustering, review rating prediction, sentiment analysis and what we invent as "critical aspect" analysis altogether in one framework. TSPRA extends sentiment approaches by integrating the key concept "user preference" in collaborative filtering (CF) models into consideration, while it is distinct from current CF models by decoupling "user preference" and "sentiment" as independent factors. Our experiments conducted on 22 Amazon datasets show overwhelming better performance in rating predication against a state-of-art model FLAME (2015) in terms of error, Pearson's Correlation and number of inverted pairs. For sentiment analysis, we compare the derived word sentiments against a public sentiment resource SenticNet3 and our sentiment estimations clearly make more sense in the context of online reviews. Last, as a result of the de-correlation of "user preference" from "sentiment", TSPRA is able to evaluate a new concept "critical aspects", defined as the product aspects seriously concerned by users but negatively commented in reviews. Improvement to such "critical aspects" could be most effective to enhance user experience.

研究の動機と目的

  • オンラインレビューのレーティング予測に向け、トピック、センチメント、ユーザープレファレンスを統合する包括的モデルの開発。
  • 協調フィルタリングモデルで混同される傾向があるユーザープレファレンスとセンチメントを分離し、それらを独立要因として扱う。
  • 階層的ディリクレ過程(HDP)を用いて、事前のトピック数の指定なしに自動的にトピック数を推定すること。
  • ユーザーが重視しているが否定的に評価されている「重要な側面(critical aspects)」を同定し、効果的な製品改善を可能にすること。
  • 最先端手法との比較を通じて、レーティング予測、センチメント分析、および重要な側面同定の各分野におけるモデルの性能を評価すること。

提案手法

  • TSPRAは、事前のトピック数の指定なしにデータから製品的側面(トピック)の数を自動的に推定できる階層的ディリクレ過程(HDP)フレームワークを採用する。
  • モデルは、トピック、語のセンチメント、ユーザープレファレンスを、最終的なレビュー評価に影響を与える独立した回帰要因として扱う。
  • ユーザープレファレンスは、ユーザーが製品的側面に対してどの程度関心を持っているかを表すものであり、センチメントとは別個の潜在変数としてモデル化される。
  • 語のセンチメントは、各トピックごとに正の語の重みと負の語の重みの比率として、確率的フレームワークにより推定される。
  • モデルは、側面の好み、センチメントスコア、およびニュートラルなレーティングバイアスを組み合わせたレーティング回帰関数を用いて、最終的なレビュー評価を予測する。
  • 「重要な側面」として、高いユーザープレファレンス(≥0.3)かつ否定的または低正のセンチメントスコアを持つ側面が特定される。これは、ユーザーの関心と不満が共に存在することを示している。

実験結果

リサーチクエスチョン

  • RQ1トピック、センチメント、ユーザープレファレンスを独立要因として扱う包括的モデルは、従来のモデルと比較してレーティング予測精度を向上させることができるか?
  • RQ2ユーザープレファレンスとセンチメントを分離することで、オンラインレビューにおけるユーザービヘイビアのより現実的で解釈可能なモデル化が可能になるか?
  • RQ3HDPフレームワークは、多様なデータセットにおいて、事前のトピック数の調整なしに効果的に製品的側面の数を推定できるか?
  • RQ4本モデルは、「重要な側面」——ユーザーが重視しているが低評価を受けている製品的側面——を同定でき、的確な製品改善を可能にするか?
  • RQ5本モデルにおけるユーザープレファレンスとセンチメントの相関関係は何か? それらの独立性仮説を支持するか?

主な発見

  • TSPRAは、22のAmazonデータセットにおいて、最先端のFLAMEモデルを著しく上回り、誤差が低く、ピアソン相関係数が高く、逆転ペアの数も少ない。
  • TSPRAが推定する語のセンチメントは、SenticNet3(公的センチメントリソース)のものよりも文脈的に整合性が高く、レビュー文脈においてより意味を持つ。
  • TSPRAにおけるユーザープレファレンスとセンチメントのピアソン相関係数は弱い(0.349)であり、両要因の成功した分離が裏付けられた。
  • TSPRAは、スマートフォンの「バッテリー」や「通話サービス」、衣料品の「ジーンズ」、事務用品の「電話機」など、ユーザーが重視しているが否定的に評価されている「重要な側面」を効果的に同定した。
  • モデルは多様なデータセットにおいても安定した性能を示し、最適なデフォルトパラメータはμ = 3.5、σ² = 0.08であり、ユーザーの1〜5段階のレーティングスケールにおける丸め行動を反映している。
  • HDPフレームワークにより、事前のトピック数の指定なしに自動的にトピックを発見でき、手動のチューニングを低減し、異種のデータセットへの一般化性能を向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。