QUICK REVIEW

[논문 리뷰] Towards Sub-Word Level Compositions for Sentiment Analysis of Hindi-English Code Mixed Text

Ameya Prabhu, Aditya Joshi|arXiv (Cornell University)|2016. 11. 02.

Sentiment Analysis and Opinion Mining인용 수 69

한 줄 요약

이 논문은 소음이 많고 철자 실수가 많은 소셜 미디어 텍스트에서 힌두어-영어 혼합 텍스트의 감성 분석을 위한 서브워드-LSTM 모델을 제안한다. 이는 서브워드 수준의 표현을 활용하여 문맥적 감성 신호를 포착한다. 제안된 새로운 Hi-En 혼합 텍스트 데이터셋에서 69.7%의 정확도와 0.658의 F1 스코어를 기록했으며, 기존의 전통적 방법보다 4-5% 높고, 기존 시스템보다 18% 높은 성능을 보였다.

ABSTRACT

Sentiment analysis (SA) using code-mixed data from social media has several applications in opinion mining ranging from customer satisfaction to social campaign analysis in multilingual societies. Advances in this area are impeded by the lack of a suitable annotated dataset. We introduce a Hindi-English (Hi-En) code-mixed dataset for sentiment analysis and perform empirical analysis comparing the suitability and performance of various state-of-the-art SA methods in social media. In this paper, we introduce learning sub-word level representations in LSTM (Subword-LSTM) architecture instead of character-level or word-level representations. This linguistic prior in our architecture enables us to learn the information about sentiment value of important morphemes. This also seems to work well in highly noisy text containing misspellings as shown in our experiments which is demonstrated in morpheme-level feature maps learned by our model. Also, we hypothesize that encoding this linguistic prior in the Subword-LSTM architecture leads to the superior performance. Our system attains accuracy 4-5% greater than traditional approaches on our dataset, and also outperforms the available system for sentiment analysis in Hi-En code-mixed text by 18%.

연구 동기 및 목표

힌두어-영어 혼합 소셜 미디어 텍스트의 감성 분석을 위한 애너테이션된 데이터셋 부족 문제를 해결한다.
혼합 텍스트에서 발생하는 철자 변형, 형태소적 복잡성, 노이즈 문제에 대처한다.
LSTM 내에서 언어학적 사전 지식을 서브워드 수준의 표현으로 코딩함으로써 감성 분류 성능을 향상시킨다.
서브워드 특징이 감성 관련 형태소를 더 잘 포착할 수 있음을 입증한다.
언어학적 사전 지식을 아키텍처 수준에서 통합할 경우, 소음이 많고 자원이 제한된 혼합 텍스트 데이터에서 모델 성능 향상이 이루어진다는 가설을 검증한다.

제안 방법

문자 수준이나 단어 수준이 아닌 서브워드 수준에서 표현을 학습하는 서브워드-LSTM 아키텍처를 제안한다.
바이트 페어 인코딩(BPE) 또는 유사한 서브워드 토크나이저를 사용해 단어를 의미 있는 형태소 단위로 분할한다.
최근에 애너테이션된 Hi-En 혼합 텍스트 데이터셋을 사용해 엔드 투 엔드로 모델을 훈련한다. 옵티마이저로 Adam을 사용하고 배치 크기는 128이다.
네트워크 내 컨볼루션 필터를 시각화하여 감성 관련 서브워드 패턴이 어떻게 학습되는지 분석한다.
동일한 데이터셋에서 문자 수준의 LSTMs, 전통적 분류기(SVM, NB), 어휘 기반 방법과의 성능을 비교한다.
SemEval-2013 데이터셋에서 교차 검증을 수행하여 서브워드 접근법의 일반화 능력을 검증한다.

실험 결과

연구 질문

RQ1문자 수준이나 단어 수준 표현에 비해 서브워드 수준 표현이 소음이 많고 혼합된 힌두어-영어 텍스트의 감성 분류 성능을 향상시키는가?
RQ2형태소적 구조와 같은 언어학적 사전 지식을 RNN 아키텍처에 통합할 경우, 자원이 제한되고 소음이 많은 혼합 텍스트 데이터에서 성능에 어떤 영향을 미치는가?
RQ3소셜 미디어 텍스트에서 발생하는 철자 변형과 형태소적 왜곡이 기존 감성 분석 방법에 얼마나 큰 장애를 초래하는가?
RQ4Subword-LSTM 모델이 SemEval-2013에서 검증된 바와 같이 다른 혼합 텍스트나 소음이 많은 텍스트 환경으로도 잘 일반화되는가?
RQ5학습된 필터의 시각화 결과가, 철자 실수가 심한 경우에도 감성 관련 서브워드 패턴을 모델이 올바르게 포착하고 있음을 확인할 수 있는가?

주요 결과

제안된 Hi-En 혼합 텍스트 데이터셋에서 서브워드-LSTM 모델은 69.7%의 정확도와 0.658의 F1 스코어를 기록했으며, 기존 전통적 방법보다 4-5% 높은 성능을 보였다.
이미 존재하는 힌두어-영어 혼합 텍스트 감성 분석 시스템 중 가장 우수한 성능을 기록한 시스템보다 18% 높은 성능을 기록했다.
서브워드 수준 표현은 문자 수준의 LSTMs보다 유의미하게 뛰어나, 문자 수준 LSTMs는 뿐만 아니라 59.8%의 정확도와 0.511의 F1 스코어를 기록했다.
일반선형 다항 나이브 베이즈(NB) 모델이 유니그램 특징을 사용할 경우 SVM 및 TF-IDF 기반 베이스라인보다 성능이 뛰어나, 이는 이 희박한 데이터셋에서 특징의 희박성 감소가 결과 향상에 기여함을 시사한다.
어휘 기반 방법은 철자 실수로 인해 올바른 감성 룩업이 불가능해 성능에 실패했다.
시각화 결과, 'btwn'이나 'cooolll'과 같은 심한 철자 실수가 있는 단어에서도 감성 관련 서브워드 세그먼트를 모델이 정확히 학습하고 있음을 확인할 수 있었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.