Skip to main content
QUICK REVIEW

[논문 리뷰] Twitter Opinion Topic Model: Extracting Product Opinions from Tweets by Leveraging Hashtags and Sentiment Lexicon

Kar Wai Lim, Wray Buntine|arXiv (Cornell University)|2016. 09. 21.
Sentiment Analysis and Opinion Mining참고 문헌 44인용 수 66
한 줄 요약

이 논문은 LDA 기반의 주제 모델인 트위터 의견 주제 모델(TOTM)을 제안한다. TOTM는 직접적인 대상-의견 상호작용을 모델링하고 감성 어휘를 학습 가능한 사전확률로 통합함으로써, 노이즈가 많고 비공식적인 트윗에서 액면 기반 의견 추출을 향상시킨다. TOTM는 900만 건의 전자제품 트윗에서 기준 모델인 ILDA와 LDA-DP를 능가하는 의견 예측 및 감성 분류 성능을 보였다.

ABSTRACT

Aspect-based opinion mining is widely applied to review data to aggregate or summarize opinions of a product, and the current state-of-the-art is achieved with Latent Dirichlet Allocation (LDA)-based model. Although social media data like tweets are laden with opinions, their "dirty" nature (as natural language) has discouraged researchers from applying LDA-based opinion model for product review mining. Tweets are often informal, unstructured and lacking labeled data such as categories and ratings, making it challenging for product opinion mining. In this paper, we propose an LDA-based opinion model named Twitter Opinion Topic Model (TOTM) for opinion mining and sentiment analysis. TOTM leverages hashtags, mentions, emoticons and strong sentiment words that are present in tweets in its discovery process. It improves opinion prediction by modeling the target-opinion interaction directly, thus discovering target specific opinion words, neglected in existing approaches. Moreover, we propose a new formulation of incorporating sentiment prior information into a topic model, by utilizing an existing public sentiment lexicon. This is novel in that it learns and updates with the data. We conduct experiments on 9 million tweets on electronic products, and demonstrate the improved performance of TOTM in both quantitative evaluations and qualitative analysis. We show that aspect-based opinion analysis on massive volume of tweets provides useful opinions on products.

연구 동기 및 목표

  • 명시적인 평가나 레이블이 없는 비정형적이고 노이즈가 많은 트윗에서 제품 의견을 추출하는 데 도전하는 것.
  • 대상(예: '카메라', '휴대폰')과 의견어(예: '사랑해', ' od') 간의 직접적 상호작용을 모델링하여 트윗 내 의견 예측을 향상시키는 것.
  • 데이터 기반의 학습 가능한 방식으로 감성 어휘 정보를 주제 모델에 통합하여, 수작업 또는 규칙 기반 방법이 아닌 방식으로 통합하는 것.
  • 트윗 수준의 감성과 해시태그 기반 클러스터링을 활용해 엔티티 간 의견을 추출하고 집계함으로써 고수준의 제품 및 브랜드 비교를 가능하게 하는 것.
  • 실시간으로 대규모의 액면 기반 의견 분석이 트위터에서 가능하고 실용적임을 입증하는 것.

제안 방법

  • TOTM는 LDA를 확장하여 대상-의견 상호작용을 직접 모델링함으로써, '구운'과 같은 감성어가 특정 대상(예: ' frankfurt')에 대해서만 긍정적임을 학습할 수 있도록 한다.
  • 짧고 비공식적인 텍스트에서 주제 클러스터링과 의견 탐지 성능을 향상시키기 위해 해시태그, 멘션, 이모티콘, 강한 감성어를 신호로 활용한다.
  • 공개된 감성 어휘를 주제 모델의 사전확률에 통합하는 새로운 제안 방식을 통해, 데이터에서 감성 강도를 동적으로 학습하고 업데이트할 수 있도록 한다.
  • 해시태그와 멘션을 통한 트윗 집계를 통해 액면 클러스터링 성능을 향상시키고, 다수의 제품 간 비교를 가능하게 한다.
  • 짧고 노이즈가 많은 트윗 형식에 특화된 새로운 대상-의견 추출 절차를 도입하여 탐지 정확도를 향상시킨다.
  • 사전 처리 단계로 철자 오류와 약어의 표준화, URL 제거를 통한 스팸 필터링을 수행하여 데이터 품질을 향상시킨다.

실험 결과

연구 질문

  • RQ1명시적인 평가가 없는 비정형적이고 비공식적인 트윗에서 LDA 기반 모델이 액면 특화 의견을 효과적으로 추출할 수 있는가?
  • RQ2표준 LDA나 ILDA와 비교해 대상-의견 상호작용을 직접 모델링함으로써 의견 예측 성능가 향상되는가?
  • RQ3감성 어휘를 주제 모델에 효과적이고 학습 가능한 방식으로 통합할 수 있는가? 이는 트윗의 감성 분류 성능 향상에 기여하는가?
  • RQ4TOTM는 트윗 수준의 감성과 해시태그 기반 클러스터링을 통해 캐논, 소니, 삼성과 같은 브랜드 간 의견 비교를 어느 정도 가능하게 하는가?
  • RQ5TOTM는 아이폰과 같은 특정 제품에 대해 대조적인 의견(긍정 대비 부정)을 어떻게 효과적으로 추출하는가?

주요 결과

  • TOTM는 ILDA와 LDA-DP를 능가하는 의견 예측 성능을 보이며, '구운'과 같은 감성어가 특정 대상(예: ' frankfurt')에 대해서만 긍정적임을 정확히 식별한다.
  • 감성 어휘를 학습 가능한 사전확률로 통합하는 제안된 방식은 감성 분류 성능을 향상시키며, 수작업 또는 규칙 기반 방법보다 뛰어난 성능을 보였다.
  • 전자제품 트윗 900만 건의 데이터셋에서 TOTM는 기준 모델보다 더 나은 모델 피팅과 정확도 높은 감성 분석 성능을 달성했다.
  • TOTM는 해시태그와 감성 기반 클러스터링을 활용해 캐논, 소니, 삼성의 카메라와 휴대폰에 대한 의견을 추출하고 요약함으로써 효과적인 브랜드 비교를 가능하게 했다.
  • 정성적 분석을 통해 TOTM가 아이폰과 같은 제품에 대해 자연어로 표현된 긍정적이고 부정적인 감성을 모두 의미 있는 대조적 의견으로 성공적으로 추출함을 확인했다.
  • TOTM는 실시간으로 대규모의 액면 기반 의견 추출이 가능함을 입증하며, 신제품에 대한 인사이트를 즉각적으로 제공할 수 있음을 보여주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.