QUICK REVIEW

[논문 리뷰] SentiHood: Targeted Aspect Based Sentiment Analysis Dataset for Urban Neighbourhoods

Marzieh Saeidi, Guillaume Bouchard|arXiv (Cornell University)|2016. 10. 12.

Sentiment Analysis and Opinion Mining참고 문헌 18인용 수 75

한 줄 요약

이 논문은 한 텍스트 단위 내에서 다수의 엔티티에 대한 특정 요소들에 대한 감성을 식별하는 새로운 과제인 대상 지향적 요소 기반 감성 분석(T-ABSA)을 소개한다. 질문-답변 플랫폼에서 도시 주거지에 대해 논의한 데이터셋인 SentiHood를 사용하여, 로지스틱 회귀 및 LSTM 모델을 활용한 강력한 베이스라인을 제시하였으며, 안전성에 대한 AUC 점수는 최대 0.960, 가격에 대한 AUC 점수는 최대 0.940을 기록하였다.

ABSTRACT

In this paper, we introduce the task of targeted aspect-based sentiment analysis. The goal is to extract fine-grained information with respect to entities mentioned in user comments. This work extends both aspect-based sentiment analysis that assumes a single entity per document and targeted sentiment analysis that assumes a single sentiment towards a target entity. In particular, we identify the sentiment towards each aspect of one or more entities. As a testbed for this task, we introduce the SentiHood dataset, extracted from a question answering (QA) platform where urban neighbourhoods are discussed by users. In this context units of text often mention several aspects of one or more neighbourhoods. This is the first time that a generic social media platform in this case a QA platform, is used for fine-grained opinion mining. Text coming from QA platforms is far less constrained compared to text from review specific platforms which current datasets are based on. We develop several strong baselines, relying on logistic regression and state-of-the-art recurrent neural networks.

연구 동기 및 목표

기존 감성 분석 과제들이 텍스트당 단일 엔티티 또는 총합 감성을 가정하는 데서 비롯하는 한계를 해결하기 위해.
한 텍스트 내에서 다수의 엔티티에 대한 특정 요소들에 대한 감성을 식별하는 새로운 과제인 대상 지향적 요소 기반 감성 분석을 제안하기 위해.
실제 질문-답변 플랫폼에서 도시 주거지에 대해 논의한 내용에서 유래한 새로운 데이터셋인 SentiHood를 구축하기 위해.
새로운 과제를 위해 로지스틱 회귀 및 순환 신경망을 활용한 강력한 베이스라인을 제공하기 위해.
기존 리뷰 기반 데이터셋과 비교해 더 자유로운 사회적 미디어 환경(예: QA 플랫폼)에서도 세밀한 의견 마이닝을 가능하게 하기 위해.

제안 방법

도시 주거지에 초점을 맞춘 질문-답변 플랫폼에서 텍스트를 추출하여, 사용자들이 여러 위치의 여러 요소들을 논의하는 환경을 반영하였다.
각 문장에 대해 대상 엔티티(이웃 지역), 요소(예: 가격, 안전성, 대중교통), 감성 극성(긍정, 부정, 중립)을 주석 처리하였다.
n-그램 및 품사(POS) 특징을 사용한 로지스틱 회귀 모델을 개발하였으며, 성능 향상을 위해 마스킹 메커니즘을 도입하였다.
장기적 의존성을 텍스트에서 포착하기 위해 LSTM 기반의 시퀀스 모델을 구현하여 요소 및 감성 분류를 수행하였다.
SentiHood 데이터셋을 기반으로 모델을 훈련시켰으며, 단일 또는 다중 위치 엔티티를 포함한 문장 간 구분을 고려했다.
AUC 점수를 활용해 요소 및 감성 분류 과제의 평균 성능을 평가하였으며, 요소별 성능에 대한 분석(ablation)도 실시하였다.

실험 결과

연구 질문

RQ1대상 지향적 요소 기반 감성 분석이 한 텍스트 내에서 다수의 엔티티에 대한 다수의 요소에 대한 감성을 효과적으로 추출할 수 있는가?
RQ2로지스틱 회귀 및 LSTM 모델이 단일 위치 엔티티 문장과 다중 위치 엔티티 문장에서 각각 어떤 성능을 보이는가?
RQ3제안된 모델을 사용할 때, 가격, 안전성, 대중교통 등의 요소 중 어떤 것이 SentiHood 데이터셋에서 가장 예측 가능할까?
RQ4POS 및 n-그램 특징의 포함 여부가 기존 모델 대비 감성 분류 성능 향상에 어떤 영향을 미치는가?
RQ5LSTM과 같은 신경망 모델이 QA 플랫폼 텍스트의 다양한 어휘적 패턴에 대해 얼마나 일반화되는가?

주요 결과

n-그램 및 POS 특징을 활용한 로지스틱 회귀 모델이 안전성 요소에 대해 가장 높은 AUC 점수 0.960을 기록하여 다른 모델들을 능가하였다.
최고의 로지스틱 회귀 모델은 단일 위치 문장에서 전체 AUC 0.916, 다중 위치 문장에서 AUC 0.907의 성능을 기록하였다.
LSTM 모델은 다중 위치 문장에서 다소 뛰어난 성능을 보였으며, AUC 0.890을 기록한 반면, 단일 위치 문장에서는 AUC 0.872를 기록하였다.
안전성 요소가 가장 예측 가능했으며, 로지스틱 회귀 베이스라인을 사용할 경우 AUC 0.960을 기록하였고, 일반 요소는 가장 낮은 AUC 0.864를 기록하였다.
시스템은 location2의 일반 요소에 대해 감성을 정확히 식별했지만, location1에서 감성의 부재를 탐지하지 못해 중립적 또는 암묵적인 감성 처리에 한계가 있음을 보여주었다.
최고의 성능을 보인 모델(마스킹 기반 로지스틱 회귀)은 특히 정밀도가 높은 요소들인 안전성과 가격에 대해 다수의 엔티티 간 감성 구분에서 뛰어난 강건성을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.