Skip to main content
QUICK REVIEW

[논문 리뷰] Predicting a Business Star in Yelp from Its Reviews Text Alone

Mingming Fan, Maryam Khademi|arXiv (Cornell University)|2014. 01. 05.
Sentiment Analysis and Opinion Mining참고 문헌 10인용 수 27
한 줄 요약

이 논문은 사용자 리뷰의 텍스트만을 사용하여 1~5점 사이의 Yelp 비즈니스 평점을 예측하는 방법을 제안한다. 인간 평가의 주관성을 제거한다. 빈도수가 높은 단어의 bag-of-words 특징과 POS 태깅된 형용사 특징을 선형 회귀와 조합함으로써, 루트 평균 제곱 오차(RMSE)가 0.6에 도달하여 리뷰 감성의 효과적인 자동 요약을 입증한다.

ABSTRACT

Yelp online reviews are invaluable source of information for users to choose where to visit or what to eat among numerous available options. But due to overwhelming number of reviews, it is almost impossible for users to go through all reviews and find the information they are looking for. To provide a business overview, one solution is to give the business a 1-5 star(s). This rating can be subjective and biased toward users personality. In this paper, we predict a business rating based on user-generated reviews texts alone. This not only provides an overview of plentiful long review texts but also cancels out subjectivity. Selecting the restaurant category from Yelp Dataset Challenge, we use a combination of three feature generation methods as well as four machine learning models to find the best prediction result. Our approach is to create bag of words from the top frequent words in all raw text reviews, or top frequent words/adjectives from results of Part-of-Speech analysis. Our results show Root Mean Square Error (RMSE) of 0.6 for the combination of Linear Regression with either of the top frequent words from raw data or top frequent adjectives after Part-of-Speech (POS).

연구 동기 및 목표

  • 사용자 제공 스타 평점에 의존하지 않고도 Yelp 비즈니스 평점을 예측할 수 있는 방법을 개발하는 것.
  • 리뷰의 텍스트적 내용만을 사용하여 비즈니스 평점의 주관성과 편향을 줄이는 것.
  • 장기간의 리뷰 텍스트에 대한 자동화되고 확장 가능한 요약을 제공하는 것.
  • 다양한 특징 추출 기법과 기계 학습 모델의 성능을 평가하는 것.
  • 텍스트에서 유추되는 감성 및 어휘적 특징만으로도 스타 평점이 정확히 예측 가능한지 확인하는 것.

제안 방법

  • 모든 원시 리뷰 텍스트에서 빈도수가 높은 단어들로부터 bag-of-words 특징을 추출하는 특징 공학 기법.
  • 품사 태깅(POS tagging)을 사용하여 리뷰 코퍼스에서 빈도수가 높은 형용사를 식별하는 특징 추출 기법.
  • 두 가지 특징 집합—상위 빈도 단어와 상위 빈도 형용사—를 하나의 특징 벡터로 통합하는 것.
  • 결합된 특징 집합을 기반으로 네 가지 기계 학습 모델(선형 회귀 포함)을 훈련하고 평가하는 것.
  • 모델 성능 평가의 주요 지표로 루트 평균 제곱 오차(RMSE)를 사용하는 것.
  • 모델 훈련 및 테스트를 위해 Yelp 데이터셋 챌린지의 레스토랑 카테고리를 선택하는 것.

실험 결과

연구 질문

  • RQ1사용자 리뷰의 텍스트만으로 암시적인 스타 평점에 접근할 수 없을 때도 비즈니스 평점이 정확히 예측될 수 있는가?
  • RQ2원시 빈도 단어와 POS 태깅된 형용사와 같은 다른 특징 추출 방법은 예측 성능에 어떤 영향을 미치는가?
  • RQ3텍스트 리뷰 데이터에서 Yelp 평점을 예측할 때 어떤 기계 학습 모델이 가장 우수한 성능을 보이는가?
  • RQ4리뷰의 감성과 어휘적 내용이 비즈니스 평점의 총합에 얼마나 잘 예측 가능한가?
  • RQ5텍스트 특징만을 사용할 때 1~5점 스타 평점 예측의 최소 오차는 얼마인가?

주요 결과

  • 원시 텍스트에서 상위 빈도 단어를 사용한 선형 회귀 모델이 RMSE 0.6을 달성했다.
  • POS 분석에서 유도된 상위 빈도 형용사만을 사용한 동일한 선형 회귀 모델 역시 RMSE 0.6을 달성했다.
  • 가장 우수한 성능을 보인 모델 구성에서 루트 평균 제곱 오차가 0.6으로 나타나 강력한 예측 정확도를 보였다.
  • POS 태깅된 형용사에서 유도된 특징 집합은 원시 빈도 단어에서 유도된 특징 집합과 유사한 성능을 보였다.
  • 결과적으로 텍스트의 감성과 어휘적 내용만으로도 비즈니스 평점 예측이 효과적으로 가능하다는 것이 입증되었다.
  • 이 방법은 리뷰 텍스트에만 의존함으로써 인간 평가에 내재된 주관성을 성공적으로 줄였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.