Skip to main content
QUICK REVIEW

[논문 리뷰] Unifying Topic, Sentiment & Preference in an HDP-Based Rating Regression Model for Online Reviews

Zheng Chen, Yong Zhang|arXiv (Cornell University)|2016. 11. 20.
Recommender Systems and Techniques인용 수 3
한 줄 요약

이 논문은 주제, 감성, 사용자 선호도를 독립적인 요소로 통합하여 리뷰 평점을 예측하고 핵심 제품 특징을 식별하는 HDP 기반의 평점 회귀 모델인 TSPRA를 제안한다. 사용자 선호도를 감성과 분리하고 HDP를 활용해 자동으로 주제를 탐지함으로써 TSPRA는 FLAME보다 평점 예측 성능이 뛰어나며, 사용자에게 중요시되지만 낮게 평가되는 핵심 특징(비판적 특징)을 드러내어 제품 개선을 위한 타겟팅 전략 수립에 기여한다.

ABSTRACT

This paper proposes a new HDP based online review rating regression model named Topic-Sentiment-Preference Regression Analysis (TSPRA). TSPRA combines topics (i.e. product aspects), word sentiment and user preference as regression factors, and is able to perform topic clustering, review rating prediction, sentiment analysis and what we invent as "critical aspect" analysis altogether in one framework. TSPRA extends sentiment approaches by integrating the key concept "user preference" in collaborative filtering (CF) models into consideration, while it is distinct from current CF models by decoupling "user preference" and "sentiment" as independent factors. Our experiments conducted on 22 Amazon datasets show overwhelming better performance in rating predication against a state-of-art model FLAME (2015) in terms of error, Pearson's Correlation and number of inverted pairs. For sentiment analysis, we compare the derived word sentiments against a public sentiment resource SenticNet3 and our sentiment estimations clearly make more sense in the context of online reviews. Last, as a result of the de-correlation of "user preference" from "sentiment", TSPRA is able to evaluate a new concept "critical aspects", defined as the product aspects seriously concerned by users but negatively commented in reviews. Improvement to such "critical aspects" could be most effective to enhance user experience.

연구 동기 및 목표

  • 온라인 리뷰 평점 예측을 위해 주제, 감성, 사용자 선호도를 통합하는 통합 모델을 개발하는 것.
  • 사용자 선호도를 감성과 분리하여 협업 필터링 모델에서 뒤섞이는 것과는 달리, 이를 독립적인 요소로 간주하는 것.
  • 계층적 디리클레 프로세스(HDP)를 사용해 주제 수를 자동으로 추론함으로써 수동으로 주제 수를 지정할 필요 없이 데이터로부터 주제 수를 자동으로 파악하는 것.
  • '핵심 특징'을 식별하는 것—사용자에게 중요하게 여겨지지만 부정적으로 평가되는 제품 기능—이를 통해 효과적인 제품 개선을 유도하는 것.
  • 최신 기술 기준 모델들과의 성능 비교를 통해 평점 예측, 감성 분석, 핵심 특징 탐지 성능을 평가하는 것.

제안 방법

  • TSPRA는 계층적 디리클레 프로세스(HDP) 프레임워크를 활용해 사전 지정 없이 데이터로부터 제품 특징(주제) 수를 자동으로 추론한다.
  • 모델은 주제, 단어 감성, 사용자 선호도를 모두 독립적인 회귀 요소로 간주하여 최종 리뷰 평점에 영향을 주는 요소로 간주한다.
  • 사용자 선호도는 사용자가 특정 제품 특징에 대해 얼마나 관심을 갖는지의 정도로 정의되며, 감성과는 별개로 별도의 잠재 변수로 모델링된다.
  • 단어 감성은 각 주제별로 양성어와 부정어의 가중치 비율을 계산하는 확률적 프레임워크를 통해 추정되며, 감성 극성으로 표현된다.
  • 모델은 특징 선호도, 감성 점수, 중립 평점 편향을 조합하여 최종 리뷰 평점을 예측하는 평점 회귀 함수를 사용한다.
  • 핵심 특징은 높은 선호도(≥0.3)와 부정적 또는 낮은 양성 감성 점수를 동시에 가지는 특징으로 정의되며, 사용자 관심과 불만이 동시에 존재함을 시사한다.

실험 결과

연구 질문

  • RQ1주제, 감성, 사용자 선호도를 독립적인 요소로 간주하는 통합 모델이 기존 모델 대비 평점 예측 정확도를 향상시키는가?
  • RQ2사용자 선호도를 감성과 분리함으로써 온라인 리뷰에서 사용자 행동을 더 현실적이고 해석 가능한 방식으로 모델링할 수 있는가?
  • RQ3HDP 프레임워크는 다양한 데이터셋에서 수동 조정 없이도 주제 수를 효과적으로 추론할 수 있는가?
  • RQ4모델은 사용자가 중요하게 여기지만 낮게 평가하는 '핵심 특징'을 식별할 수 있는가? 이를 통해 타겟팅된 제품 개선이 가능할까?
  • RQ5제안된 모델에서 사용자 선호도와 감성 간 상관관계는 어떠한가? 이는 두 요소의 독립성 가정을 지지하는가?

주요 결과

  • TSPRA는 22개의 Amazon 데이터셋에서 FLAME 모델보다 뛰어난 평점 예측 성능을 보이며, 오차가 낮고 피어슨 상관계수가 높으며, 역전된 쌍의 수가 적다.
  • TSPRA에서 추정한 단어 감성은 SenticNet3(공개 감성 자원)의 결과보다 더 높은 맥락 일관성을 보이며 리뷰 맥락에서 더 논리적인 해석을 가능하게 한다.
  • TSPRA에서 사용자 선호도와 감성 간 피어슨 상관계수는 약 0.349로 약한 관계를 보이며, 이는 두 요소 간 성공적인 분리가 이루어졌음을 확인한다.
  • TSPRA는 휴대폰에서 '배터리'와 '통화 서비스', 옷에서 '청바지', 사무용 제품에서 '휴대폰' 등 사용자에게 중요하게 여겨지지만 부정적으로 평가되는 특징을 성공적으로 식별한다.
  • 모델은 다양한 데이터셋에서 뛰어난 안정성을 보이며, 최적의 기본 파라미터는 μ = 3.5와 σ² = 0.08로 설정되며, 이는 사용자가 1~5점 평점 척도에서 평균적으로 라운딩하는 행동을 반영한다.
  • HDP 프레임워크를 통해 주제 수를 사전 지정 없이 자동으로 탐지할 수 있어 수동 조정을 줄이고 이질적인 데이터셋 간 일반화 능력을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.