Skip to main content
QUICK REVIEW

[논문 리뷰] PELESent: Cross-domain polarity classification using distant supervision

Edilson A. Corrêa, Vanessa Queiroz Marinho|arXiv (Cornell University)|2017. 07. 09.
Sentiment Analysis and Opinion Mining인용 수 1
한 줄 요약

이 논문은 약 100만 개의 트윗을 기반으로 한 대규모 다국어 감성 코퍼스를 자동으로 생성하기 위해 이모티콘과 이모티콘을 활용한 원거리 지도 학습 방법인 PELESent을 제안한다. 이 방법은 포르투갈어를 대상으로 하며, 다양한 도메인에서의 감성 분류 성능이 경쟁력 있음을 입증하며, 도메인 이동과 언어 변동성에 대해 강건함을 보이며, 일부 경우에서 최신 기술을 초월한다.

ABSTRACT

The enormous amount of texts published daily by Internet users has fostered the development of methods to analyze this content in several natural language processing areas, such as sentiment analysis. The main goal of this task is to classify the polarity of a message. Even though many approaches have been proposed for sentiment analysis, some of the most successful ones rely on the availability of large annotated corpus, which is an expensive and time-consuming process. In recent years, distant supervision has been used to obtain larger datasets. So, inspired by these techniques, in this paper we extend such approaches to incorporate popular graphic symbols used in electronic messages, the emojis, in order to create a large sentiment corpus for Portuguese. Trained on almost one million tweets, several models were tested in both same domain and cross-domain corpora. Our methods obtained very competitive results in five annotated corpora from mixed domains (Twitter and product reviews), which proves the domain-independent property of such approach. In addition, our results suggest that the combination of emoticons and emojis is able to properly capture the sentiment of a message.

연구 동기 및 목표

  • 포르투갈어와 같은 저자원 언어에서 대규모 고품질 주석 감성 코퍼스의 부족 문제를 해결하기 위해.
  • 이모티콘과 이모티콘을 약한 레이블로 사용하여 원거리 지도 학습을 활용함으로써 수동 주석의 비용과 노력을 줄이기 위해.
  • 자동으로 생성된 훈련 데이터의 효과성을 포르투갈어의 교차 도메인 감성 분류 작업에서 평가하기 위해.
  • 이모티콘과 이모티콘 사용이 비공식적 텍스트에서 감성 표현을 향상시키는지 조사하기 위해.
  • 소셜 미디어와 제품 리뷰 도메인 간에 일반화 가능한 확장 가능한, 도메인에 강건한 감성 분석 방법을 개발하기 위해.

제안 방법

  • 감성 극성(긍정, 부정, 중립)을 약한 레이블로 사용하여 이모티콘과 이모티콘을 활용해 트위터 데이터에 원거리 지도 학습을 적용한다.
  • 이모티콘 사용이 암시하는 감성에 기반해 약 100만 개의 포르투갈어 트윗으로 구성된 대규모 훈련 코퍼스를 자동으로 구축한다.
  • 로지스틱 회귀(단어 임베딩 w2v, TF-IDF, Doc2Vec d2v) 및 딥 러닝 모델(CNN, RCNN)을 포함한 여러 모델을 이 원거리 지도 학습 코퍼스에서 훈련시킨다.
  • 하이브리드 방법은 어휘적 특징과 학습된 표현을 결합하여 제품 리뷰와 같은 구조적이고 정형화된 텍스트에서 성능을 향상시킨다.
  • 다섯 개인 수동 주석 코퍼스에서 모델을 평가한다: 트위터에서 유래한 두 개(BPE-Dilma, BPE-Serra)와 제품 리뷰에서 유래한 세 개(Buscape-1, Buscape-2, Mercado Livre).
  • 평가 지표로는 F1 점수(_macro 평균), 재현율(_macro 평균), 정확도를 사용하며, 이는 이전 연구에서의 최신 기술 결과와 비교된다.

실험 결과

연구 질문

  • RQ1이모티콘과 이모티콘을 활용한 원거리 지도 학습이 최소한의 인간 주석으로 대규모 고품질 감성 코퍼스를 효과적으로 생성할 수 있는가?
  • RQ2원거리 지도 학습 코퍼스에서 훈련된 모델이 교차 도메인 감성 분류 작업에 얼마나 잘 일반화되는가?
  • RQ3이모티콘과 이모티콘 신호의 포함이 비공식적이고 저자원 텍스트에서 감성 분류 모델의 성능을 향상시키는가?
  • RQ4다양한 텍스트 표현 방법(예: TF-IDF, 단어 임베딩, 문단 벡터)이 원거리 지도 학습 코퍼스에서 훈련되었을 때 성능는 어떻게 되는가?
  • RQ5소셜 미디어에서 제품 리뷰 도메인으로의 전이 시 모델의 성능이 얼마나 떨어지거나 향상되는가?

주요 결과

  • PELESent 방법은 다섯 개인 다양한 감성 분류 코퍼스에서 경쟁력 있는 성능을 달성하였으며, 최신 기술(SotA) 결과와 F1 점수로 9.69%에서 12.24% 이내로 수렴하였다. 이는 다른 도메인에서 훈련되었음에도 불구하고 성과이다.
  • Buscape-1 및 Buscape-2 코퍼스에서 RCNN 및 하이브리드 모델이 가장 높은 F1 점수를 기록하였으며, RCNN은 F1 점수 0.76542를, 하이브리드 모델은 F1 점수 0.76681를 기록하였다.
  • Mercado Livre 코퍼스에서는 RCNN 모델이 F1 점수 0.85612를 기록하였고, 하이브리드 모델은 F1 점수 0.86141에 도달하여 기준 모델을 크게 능가하였다.
  • 이모티콘 기반 원거리 지도 학습을 통해 효과적인 교차 도메인 전이가 가능했으며, 특히 어휘적 방법이 더 효과적인 제품 리뷰 데이터셋에서 뛰어난 성능을 보였다.
  • 딥 러닝 모델(CNN, RCNN)은 원거리 지도 학습 코퍼스에서 훈련되었음에도 불구하고 경쟁적인 성능를 보였으며, 이는 대규모 데이터가 얕은 모델과 깊은 모델 간의 성능 격차를 줄일 수 있음을 시사한다.
  • 언어적 변동성과 시간적 이동에 대한 저항력이 있었으며, 이는 다양한 코퍼스와 도메인에서 일관된 성능을 보이며 입증되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.