QUICK REVIEW

[論文レビュー] SentiHood: Targeted Aspect Based Sentiment Analysis Dataset for Urban Neighbourhoods

Marzieh Saeidi, Guillaume Bouchard|arXiv (Cornell University)|Oct 12, 2016

Sentiment Analysis and Opinion Mining参考文献 18被引用数 75

ひとこと要約

この論文は、1つのテキスト単位内で複数のエンティティの特定の側面に対するセンチメントを同定する、新しいタスクである標的的側面ベースのセンチメント分析（T-ABSA）を紹介する。SentiHoodデータセット（都市の住宅地域に関する質疑応答プラットフォームから抽出）を用いて、ロジスティック回帰およびLSTMモデルを用いた強力なベースラインを提示し、安全に関する側面でAUCスコアが最大0.960、価格に関する側面で0.940に達した。

ABSTRACT

In this paper, we introduce the task of targeted aspect-based sentiment analysis. The goal is to extract fine-grained information with respect to entities mentioned in user comments. This work extends both aspect-based sentiment analysis that assumes a single entity per document and targeted sentiment analysis that assumes a single sentiment towards a target entity. In particular, we identify the sentiment towards each aspect of one or more entities. As a testbed for this task, we introduce the SentiHood dataset, extracted from a question answering (QA) platform where urban neighbourhoods are discussed by users. In this context units of text often mention several aspects of one or more neighbourhoods. This is the first time that a generic social media platform in this case a QA platform, is used for fine-grained opinion mining. Text coming from QA platforms is far less constrained compared to text from review specific platforms which current datasets are based on. We develop several strong baselines, relying on logistic regression and state-of-the-art recurrent neural networks.

研究の動機と目的

1つのエンティティまたは全体のセンチメントを仮定する既存のセンチメント分析タスクの制限を解消すること。
1つのテキスト内で複数のエンティティの特定の側面に対するセンチメントを同定する、新しいタスク「標的的側面ベースのセンチメント分析」を提案すること。
都市の住宅地域に関する実世界の議論から抽出された、新しいデータセットSentiHoodを構築すること。
新しいタスクに対して、ロジスティック回帰および再帰的ニューラルネットワークを用いた強力なベースラインを提供すること。
従来のレビューに基づくデータセットと比較して、より制約の少ないソーシャルメディアの文脈（例：QAプラットフォーム）における細分化された意見抽出を可能にすること。

提案手法

都市の住宅地域に焦点を当てた質疑応答プラットフォームからテキストを抽出し、複数の場所の複数の側面について議論されている。
各文について、ターゲットとなるエンティティ（地域）、側面（例：価格、安全、交通）、センチメント極性（肯定的、否定的、中立的）をアノテートした。
n-gramおよび品詞（POS）特徴を用いたロジスティック回帰モデルを開発し、パフォーマンス向上のためのマスキング機構を導入した。
長距離依存性を捉えるために、LSTMベースのシーケンスモデルを実装し、側面およびセンチメント分類に使用した。
SentiHoodデータセット上でモデルを学習し、1つの場所エンティティを持つ文と複数の場所エンティティを持つ文を区別した。
AUCスコアを、側面およびセンチメント分類タスクの平均値として評価し、側面固有のパフォーマンスに対するアブレーションを実施した。

実験結果

リサーチクエスチョン

RQ1標的的側面ベースのセンチメント分析は、1つのテキスト内に複数のエンティティの複数の側面に対するセンチメントを効果的に抽出できるか？
RQ2ロジスティック回帰およびLSTMモデルのパフォーマンスは、1つの場所エンティティを持つ文と複数の場所エンティティを持つ文でどのように異なるか？
RQ3価格、安全、交通などの側面のうち、提案されたモデルを用いてSentiHoodデータセットで最も予測可能であるのはどれか？
RQ4POSおよびn-gram特徴の導入は、ベースラインモデルと比較して、センチメント分類のパフォーマンスをどのように向上させるか？
RQ5LSTMのようなニューラルモデルは、QAプラットフォームのテキストにおける多様な言語的パターンにどの程度一般化できるか？

主な発見

n-gramおよびPOS特徴を用いたロジスティック回帰モデルが、安全に関する側面で最高のAUCスコア0.960を達成し、他のモデルを上回った。
最高のロジスティック回帰モデルは、1か所の場所を持つ文では全体でAUC0.916、複数の場所を持つ文ではAUC0.907を達成した。
LSTMモデルは、複数の場所を持つ文（AUC 0.890）でやや良好な性能を示し、1か所の場所を持つ文（AUC 0.872）よりも優れていた。
安全に関する側面が最も予測可能であり、ロジスティック回帰ベースラインを用いてAUC0.960を達成した。一方、一般の側面は最低のAUC0.864を示した。
システムは場所2の一般の側面に対して肯定的センチメントを正しく同定したが、場所1ではセンチメントの欠如を検出できず、中立的または暗黙のセンチメントに対処する能力に限界があることを示した。
最高のパフォーマンスを示したモデル（マスキングを施したロジスティック回帰）は、特に精度が求められる側面（安全、価格）において、複数のエンティティのセンチメントを区別する上で頑健であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。