QUICK REVIEW

[논문 리뷰] A new ANEW: Evaluation of a word list for sentiment analysis in microblogs

Finn Årup Nielsen|arXiv (Cornell University)|2011. 03. 15.

Sentiment Analysis and Opinion Mining참고 문헌 10인용 수 739

한 줄 요약

이 논문은 마이크로블로그 감성 분석을 위해 특별히 설계된 새로운 감성 어휘집 AFINN-2477을 소개한다. 이 어휘집은 -5에서 +5의 평가 척도로 수작업으로 평가되었으며, 인터넷 스트레스어휘와 모욕어를 포함하고 있다. 아마존 메커니컬 터크를 통해 수작업으로 레이블링된 1,000개의 트위터 게시글을 대상으로 평가한 결과, 인간 평가와의 상관관계에서 ANEW를 능가했다 (피어슨 상관계수 r = 0.564 vs. 0.525). 다만 SentiStrength는 여전히 더 뛰어난 성능을 보였으며 (r = 0.610), 이는 도메인 특화 어휘집과 고급 자연어 처리 기법의 유용성을 시사한다.

ABSTRACT

Sentiment analysis of microblogs such as Twitter has recently gained a fair amount of attention. One of the simplest sentiment analysis approaches compares the words of a posting against a labeled word list, where each word has been scored for valence, -- a 'sentiment lexicon' or 'affective word lists'. There exist several affective word lists, e.g., ANEW (Affective Norms for English Words) developed before the advent of microblogging and sentiment analysis. I wanted to examine how well ANEW and other word lists performs for the detection of sentiment strength in microblog posts in comparison with a new word list specifically constructed for microblogs. I used manually labeled postings from Twitter scored for sentiment. Using a simple word matching I show that the new word list may perform better than ANEW, though not as good as the more elaborate approach found in SentiStrength.

연구 동기 및 목표

트위터와 같은 마이크로블로깅 플랫폼에서 흔한 비공식어, 슬랭, 모욕어를 고려하여 감성 어휘집을 개발하기 위해.
기존의 단어 목록(예: ANEW, General Inquirer, OpinionFinder)과 비교하여 이 새로운 어휘집의 감성 강도 탐지 성능을 평가하기 위해.
인터넷 스트레스어와 강한 부정어를 포함함으로써 짧고 비공식적인 텍스트에서 감성 분석 정확도가 향상되는지 평가하기 위해.
새로운 어휘집과 ANEW 사이의 성능 차이가 점수 품질 때문인지, 어휘 커버리지 때문인지 파악하기 위해.

제안 방법

2,477개의 고유어와 15개의 어구를 포함하는 새로운 감성 어휘집(AFINN-2477)을 제작하였으며, -5(매우 부정적)에서 +5(매우 긍정적)의 평가 척도로 수작업으로 평가하였다.
COP15 트위터 게시물 데이터, 공개된 어휘 목록(예: DeRose, Siegle), 유저디셔너리, 위키백과어휘집, 마이크로소프트 웹 n-그램 유사도 서비스를 활용하여 어휘집을 반복적으로 확장하였다.
모호한 어휘(예: 'patient', 'mean')와 높은 자극성 중립어(예: 'surprise')를 제거하여 잡음을 줄였다.
1,000개의 트위터 게시글을 아마존 메커니컬 터크를 통해 수작업으로 레이블링한 자료를 활용하여 성능을 평가하였으며, 자동 점수와 인간 레이블 간 피어슨 상관계수와 스피어만 순위 상관계수를 계산하였다.
동일한 점수 계산 방법과 재표본 추출 기법을 사용하여, 새로운 어휘집을 ANEW, General Inquirer, OpinionFinder, SentiStrength와 비교하였다.
ANEW와 새로운 어휘집의 공통어휘(299개어휘)를 분석하여, 점수 품질와 어휘 커버리지의 영향을 분리하기 위해 ANEW 점수로 재평가하였다.

실험 결과

연구 질문

RQ1마이크로블로그에 특화된 감성 어휘집은 트위터에서 감성 강도 탐지에 있어 ANEW를 능가하는가?
RQ2인터넷 스트레스어와 모욕어를 포함함으로써 비공식 텍스트에서 감성 분석 성능이 얼마나 향상되는가?
RQ3새로운 어휘집의 성능 향상 요인이 ANEW 대비 더 나은 어휘 점수화인지, 더 넓은 어휘 커버리지 때문인가?
RQ4어휘집이 점진적으로 확장됨에 따라 성능은 어떻게 변화하는가?
RQ5SentiStrength처럼 부정성 처리, 이모티콘 처리 등의 고급 자연어 처리 기법을 사용하는 SentiStrength와 비교해 볼 때, 새로운 어휘집의 성능은 어떠한가?

주요 결과

새로운 AFINN-2477 어휘집은 1,000개의 트위터 게시글에서 인간 평가와 피어슨 상관계수 0.564를 기록하여 ANEW의 0.525를 능가했다.
SentiStrength는 가장 높은 상관계수(0.610)를 기록하여, 고급 자연어 처리 기법이 심플한 단어 매칭조차 뛰어나다는 것을 시사한다.
General Inquirer 어휘집은 낮은 성능을 보였으며(피어슨 상관계수 r = 0.374), 이는 감성 강도 정보가 없는 극성 전용 점수 체계 때문일 것이다.
OpinionFinder 어휘집은 General Inquirer보다 성능이 뛰어나게(상관계수 r = 0.458) 나왔지만, ANEW와 새로운 어휘집보다는 열등했다. 이는 크기가 더 크지만도 성능이 떨어지는 것을 의미한다.
새로운 어휘집의 성능은 확장 과정에서 점진적으로 향상되었으며, 그림 4에서 이를 확인할 수 있었고, 계속된 확장으로 더 큰 성과를 기대할 수 있음을 시사한다.
ANEW와 새로운 어휘집의 299개 공통어휘 분석 결과, ANEW의 점수화가 더 뛰어나다는 것이 확인되어, 새로운 어휘집의 성능 향상 요인이 점수 품질이 아니라 어휘 커버리지 때문임을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.