Skip to main content
QUICK REVIEW

[논문 리뷰] Sentiment Analysis of German Twitter

Wladimir Sidorenko|arXiv (Cornell University)|2019. 01. 01.
Sentiment Analysis and Opinion Mining참고 문헌 155인용 수 4
한 줄 요약

이 논문은 대규모 수작업로 표시된 독일어 트위터 감성 분석 코퍼스를 소개하고 독일어 소셜미디어에서의 감성 분석을 위한 새로운 방법들을 제안한다. 감성 어휘 생성 향상, 개선된 CRF를 활용한 세분화된 의견 마이닝, 어휘-주의 메커니즘을 통한 메시지 수준 분류, 잠재적-경계화된 CRF와 재귀적 딜레트르 과정을 통한 논의 인식 분석를 통해 독일어 트위터 감성 분석 과제에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

The immense popularity of online communication services in the last decade has not only upended our lives (with news spreading like wildfire on the Web, presidents announcing their decisions on Twitter, and the outcome of political elections being determined on Facebook) but also dramatically increased the amount of data exchanged on these platforms. Therefore, if we wish to understand the needs of modern society better and want to protect it from new threats, we urgently need more robust, higher-quality natural language processing (NLP) applications that can recognize such necessities and menaces automatically, by analyzing uncensored texts. Unfortunately, most NLP programs today have been created for standard language, as we know it from newspapers, or, in the best case, adapted to the specifics of English social media. This thesis reduces the existing deficit by entering the new frontier of German online communication and addressing one of its most prolific forms—users’ conversations on Twitter. In particular, it explores the ways and means by how people express their opinions on this service, examines current approaches to automatic mining of these feelings, and proposes novel methods, which outperform state-of-the-art techniques. For this purpose, I introduce a new corpus of German tweets that have been manually annotated with sentiments, their targets and holders, as well as lexical polarity items and their contextual modifiers. Using these data, I explore four major areas of sentiment research: (i) generation of sentiment lexicons, (ii) fine-grained opinion mining, (iii) message-level polarity classification, and (iv) discourse-aware sentiment analysis. In the first task, I compare three popular groups of lexicon generation methods: dictionary-, corpus-, and word-embedding–based ones, finding that dictionary-based systems generally yield better polarity lists than the last two groups. Apart from this, I propose a linear projection algorithm, whose results surpass many existing automatically-generated lexicons. Afterwords, in the second task, I examine two common approaches to automatic prediction of sentiment spans, their sources, and targets: conditional random fields (CRFs) and recurrent neural networks, obtaining higher scores with the former model and improving these results even further by redefining the structure of CRF graphs. When dealing with message-level polarity classification, I juxtapose three major sentiment paradigms: lexicon-, machine-learning–, and deep-learning–based systems, and try to unite the first and last of these method groups by introducing a bidirectional neural network with lexicon-based attention. Finally, in order to make the new classifier aware of microblogs' discourse structure, I let it separately analyze the elementary discourse units of each tweet and infer the overall polarity of a message from the scores of its EDUs with the help of two new approaches: latent-marginalized CRFs and Recursive Dirichlet Process.

연구 동기 및 목표

  • 감성 분석을 위한 고품질 수작업 표시 독일어 소셜미디어 데이터의 부족을 해결하기 위해.
  • 독일어 트위터에서의 감성 분석을 위한 새로운 기법을 개발하고 평가하기 위해, 어휘 생성, 의견 마이닝, 메시지 수준 분류, 논의 인식 분석에 중점을 두어.
  • 저자원, 비공식어 사용 환경에서 독일어 NLP 시스템을 훈련하고 평가하기 위한 종합적 자원을 만들기 위해.
  • 언어적 구조, 맥락적 수식어, 논의 인식 모델링을 통합하여 감성 분석 과제 성능을 향상시키기 위해.

제안 방법

  • 감성 레이블, 대상, 소유자, 어휘 극성 항목을 포함한 새로운 수작업 표시 독일어 트위터 코퍼스를 제안한다.
  • 사전 기반, 코퍼스 기반, 워드 임베딩 기반 어휘 생성 방법을 비교하고, 사전 기반 방법을 선호하며 선형 투영 알고리즘을 도입한다.
  • 개선된 그래프 구조를 가진 조건부 랜덤 필드(CRFs)를 사용하여 세분화된 의견 마이닝 성능을 향상시킨다.
  • 메시지 수준 감성 분류를 위한 이중 방향 신경망에 어휘 기반 주의 메커니즘을 도입한다.
  • 잠재적-경계화된 CRF와 재귀적 딜레트르 과정을 적용하여 논의 구조를 모델링하고 기본 논의 단위에서 트윗의 총합 감성 극성 값을 추론한다.
  • 신뢰도 전파와 비터비 디코딩을 사용하여 수정된 α 및 β 점수 계산을 포함한 선형 체인, 반-마르코프, 트리 구조 CRF에서 추론을 수행한다.

실험 결과

연구 질문

  • RQ1사전 기반, 코퍼스 기반, 워드 임베딩 기반 중 어떤 방법이 독일어 트위터에 가장 신뢰할 수 있는 감성 어휘를 생성하는가?
  • RQ2다시 구조화된 CRF 그래프는 독일어 트윗에서 세분화된 의견 마이닝 성능을 향상시킬 수 있는가?
  • RQ3이중 방향 신경망에 어휘 기반 주의를 통합할 경우 메시지 수준 감성 분류에 어떤 영향을 미치는가?
  • RQ4논의 구조를 모델링하면 마이크로블로그에서 감성 분류 성능에 얼마나 기여하는가?
  • RQ5잠재적-경계화된 CRF와 재귀적 딜레트르 과정은 트윗에서 논의 인식 감성 추론을 효과적으로 모델링할 수 있는가?

주요 결과

  • 사전 기반 어휘 생성 방법이 어휘 품질 측면에서 코퍼스 기반 및 워드 임베딩 기반 방법보다 뛰어나다.
  • 제안된 선형 투영 알고리즘이 많은 기존 자동 생성 어휘보다 성능이 뛰어나다.
  • 다시 구조화된 그래프를 가진 CRF 기반 모델은 표준 CRF나 RNN보다 세분화된 의견 마이닝에서 더 높은 점수를 기록한다.
  • 어휘 기반 주의를 통합한 이중 방향 신경망은 어휘와 딥러닝의 강점을 조합하여 메시지 수준 감성 분류 성능을 향상시킨다.
  • 잠재적-경계화된 CRF와 재귀적 딜레트르 과정은 기본 논의 단위와 그 계층적 관계를 모델링함으로써 논의 인식 감성 분석 성능을 향상시킨다.
  • 제안된 기법들은 새로운 독일어 트위터 코퍼스에서 모든 네 가지 감성 분석 과제에서 최신 기술 수준의 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.