QUICK REVIEW

[論文レビュー] Predicting a Business Star in Yelp from Its Reviews Text Alone

Mingming Fan, Maryam Khademi|arXiv (Cornell University)|Jan 5, 2014

Sentiment Analysis and Opinion Mining参考文献 10被引用数 27

ひとこと要約

この論文では、人為的な評価の主観性を排除するために、ユーザーのレビュー本文のみを用いてYelpのビジネス評価（1〜5つ星）を予測する手法を提案する。頻出語のbag-of-words特徴量と品詞（POS）タグ付き形容詞を組み合わせ、線形回帰を用いることで、決定的誤差（RMSE）が0.6に達し、レビューの感情的傾向を効果的に自動要約できることを示している。

ABSTRACT

Yelp online reviews are invaluable source of information for users to choose where to visit or what to eat among numerous available options. But due to overwhelming number of reviews, it is almost impossible for users to go through all reviews and find the information they are looking for. To provide a business overview, one solution is to give the business a 1-5 star(s). This rating can be subjective and biased toward users personality. In this paper, we predict a business rating based on user-generated reviews texts alone. This not only provides an overview of plentiful long review texts but also cancels out subjectivity. Selecting the restaurant category from Yelp Dataset Challenge, we use a combination of three feature generation methods as well as four machine learning models to find the best prediction result. Our approach is to create bag of words from the top frequent words in all raw text reviews, or top frequent words/adjectives from results of Part-of-Speech analysis. Our results show Root Mean Square Error (RMSE) of 0.6 for the combination of Linear Regression with either of the top frequent words from raw data or top frequent adjectives after Part-of-Speech (POS).

研究の動機と目的

ユーザーが提供する星評価に依存せずに、Yelpのビジネス評価を予測する手法を開発すること。
レビューのテキスト内容のみに依存することで、ビジネス評価の主観性とバイアスを低減すること。
長文のレビュー本文を自動的かつスケーラブルに要約する仕組みを提供すること。
さまざまな特徴抽出手法と機械学習モデルの評価が、評価予測に与える影響を検証すること。
テキストからの感情的および語彙的特徴量のみで、星評価を正確に予測できるかどうかを特定すること。

提案手法

すべての元のレビュー本文に含まれる頻出語からbag-of-words特徴量を生成する。
品詞（POS）タギングを用いて、レビュー語彙から頻出形容詞を抽出する。
頻出語と頻出形容詞の両方の特徴量を統合し、1つの特徴ベクトルを構築する。
線形回帰を含む4つの機械学習モデルを、統合された特徴量セット上で学習および評価する。
モデル性能の主な評価指標として、決定的誤差（RMSE）を用いる。
モデルの学習およびテストに、Yelp Dataset Challengeのレストランカテゴリを選択する。

実験結果

リサーチクエスチョン

RQ1星評価が明示的に提供されていない状況でも、ユーザーのレビュー本文のみを用いてビジネス評価を正確に予測できるか？
RQ2頻出語（raw）とPOSタグ付き形容詞の2つの特徴抽出手法の違いが、予測性能にどのように影響するか？
RQ3テキストレビューデータからYelpの評価を予測する際、どの機械学習モデルが最も優れた性能を示すか？
RQ4レビュー内の感情的および語彙的コンテンツが、全体のビジネス評価をどの程度正確に予測できるか？
RQ5テキスト特徴量のみを用いて1〜5つ星の評価を予測する場合、得られる最小誤差はどの程度か？

主な発見

rawテキストからの頻出語と線形回帰を組み合わせた手法が、RMSE 0.6を達成した。
POS解析から得た頻出形容詞と線形回帰を組み合わせた手法も、RMSE 0.6を達成した。
最も優れたモデル構成が、決定的誤差（RMSE）0.6を達成し、高い予測精度を示した。
POSタグ付き形容詞から得た特徴量セットは、raw頻出語から得たものと同等の性能を示した。
結果から、テキスト内の感情的および語彙的コンテンツのみで、ビジネス評価を効果的に予測できることが明らかになった。
本手法は、レビュー本文にのみ依存することで、人為的評価に内在する主観性を効果的に低減できた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。