Skip to main content
QUICK REVIEW

[논문 리뷰] Building a Sentiment Corpus of Tweets in Brazilian Portuguese

Henrico Bertini Brum, Maria das Graças Volpe Nunes|arXiv (Cornell University)|2017. 12. 24.
Sentiment Analysis and Opinion Mining참고 문헌 11인용 수 30
한 줄 요약

이 논문은 TV 프로그램 분야의 브라질 포르투갈어 트윗 15,000건으로 구성된 수작업으로 레이블링된 감성 코퍼스인 TweetSentBR를 소개한다. 이 코퍼스는 긍정, 중립, 부정 클래스로 분류되어 있으며, 세 가지 기계학습 방법(Naive Bayes, SVM, 하이브리드 접근법)을 사용하여 이진 분류에서 82.06%의 정확도와 80.99%의 F-measure를 달성하였고, 삼분류 분류에서는 64.62%의 정확도와 59.85%의 F-measure를 기록하였다. 이는 브라질 포르투갈어에서의 감성 분석에 있어 귀중한 자원을 제공한다.

ABSTRACT

The large amount of data available in social media, forums and websites motivates researches in several areas of Natural Language Processing, such as sentiment analysis. The popularity of the area due to its subjective and semantic characteristics motivates research on novel methods and approaches for classification. Hence, there is a high demand for datasets on different domains and different languages. This paper introduces TweetSentBR, a sentiment corpora for Brazilian Portuguese manually annotated with 15.000 sentences on TV show domain. The sentences were labeled in three classes (positive, neutral and negative) by seven annotators, following literature guidelines for ensuring reliability on the annotation. We also ran baseline experiments on polarity classification using three machine learning methods, reaching 80.99% on F-Measure and 82.06% on accuracy in binary classification, and 59.85% F-Measure and 64.62% on accuracy on three point classification.

연구 동기 및 목표

  • 소셜 미디어 텍스트에서 브라질 포르투갈어에 대한 고품질 수작업 레이블링 감성 코퍼스의 부족을 해결하기 위해.
  • 감성 분석 연구를 지원하기 위해 TV 프로그램 분야에 특화된 균형 잡힌 코퍼스를 구축하기 위해.
  • 실제 데이터의 복잡성을 반영하고 분류기의 강건성을 향상시키기 위해 중립 클래스를 포함한 자원을 제공하기 위해.
  • 기계학습 모델의 이진 및 삼분류 감성 분류 작업 평가를 가능하게 하기 위해.
  • 브라질 포르투갈어에서 아이러니, 슬랭, 소셜 미디어 전용 표현과 같은 언어 현상에 대한 연구를 지원하기 위해.

제안 방법

  • 코퍼스는 브라질 TV 프로그램과 관련된 15,000개의 트윗을 트위터 API를 통해 수집하여 구축하였다.
  • 표준화된 가이드라인을 따르며 일곱 명의 레이블러가 문장을 긍정, 중립, 부정 세 가지 클래스로 수작업 레이블링하였다. 이는 상호 레이블러 신뢰도를 확보하기 위함이었다.
  • 레이블링 과정에는 훈련, 가이드라인 개발, 재검토 단계가 포함되어 오류를 최소화하고 일관성을 향상시켰다.
  • 세 가지 기계학습 모델을 평가하였다: Naive Bayes, 선형 커널을 사용한 SVM, 그리고 어휘 규칙과 SVM을 결합한 하이브리드 분류기.
  • 특징 표현에는 이진 백오프워즈 모델, 감성 어휘사전, 이모티콘, 품사 태그(POS)를 사용하였다.
  • 기본 실험은 Scikit-learn를 사용하여 수행되었으며, 성능 평가 기준으로는 이진 및 삼분류 분류 작업 모두에서 F-measure와 정확도를 사용하였다.

실험 결과

연구 질문

  • RQ1브라질 포르투갈어 트윗(특히 TV 프로그램 분야)의 감성 분류에 있어 표준 기계학습 모델의 효과성은 어떠한가?
  • RQ2어휘 규칙과 SVM을 조합한 하이브리드 접근법을 사용할 경우, 브라질 포르투갈어 감성 분류에서 달성할 수 있는 성능는 어떠한가?
  • RQ3중립 클래스의 포함 여부가 감성 분석에서 분류 성능과 모델 일반화 능력에 어떤 영향을 미치는가?
  • RQ4감성 어휘, 이모티콘, 특정 표현과 같은 언어적 특징들은 브라질 포르투갈어에서 긍정, 중립, 부정 트윗을 어떻게 구분하는가?
  • RQ5이 코퍼스는 아이러니, 슬랭, 사용자 고유의 표현과 같은 실제 소셜 미디어 언어 현상을 어느 정도 반영하고 있는가?

주요 결과

  • SVM 분류기로 이진 분류에서 F-measure는 80.99%, 정확도는 82.06%를 기록하였다.
  • 삼분류 분류(긍정, 중립, 부정)에서는 Naive Bayes와 SVM을 사용하여 최고의 F-measure는 59.85%, 정확도는 64.62%를 기록하였다.
  • 하이브리드 분류기는 이진 분류에서 76.84%의 정확도와 76.59%의 F-measure를 기록하여 SVM에 비해 중간 수준의 성능을 보였다.
  • 긍정 클래스에서 가장 정보가 많은 단어로는 'amo'(사랑한다), 'fofura'(귀엽다), 'linda'(아름답다) 등이 있었다.
  • 부정 클래스에서는 'lixo'(쓰레기), 'péssimo'(끔찍하다), 'tirem'(제거하다) 등의 어휘가 두드러졌다.
  • 중립 클래스에는 프로그램 이름, 사용자 이름, 'aparecer'(등장하다)와 같은 중립 동사 등 높은 빈도의 어휘가 포함되어 있어 의견이 아닌 내용을 반영하고 있었다.
  • 이 코퍼스는 중립 클래스를 포함하고 있으며, 브라질 TV 프로그램이라는 새로운 분야에 집중하고 있어, 기존 자원과 차별화되며 새로운 언어학적 및 모델링 과제를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.