Skip to main content
QUICK REVIEW

[논문 리뷰] A Corpus of English-Hindi Code-Mixed Tweets for Sarcasm Detection

Sahil Swami, Ankush Khandelwal|arXiv (Cornell University)|2018. 05. 30.
Sentiment Analysis and Opinion Mining참고 문헌 6인용 수 26
한 줄 요약

이 논문은 사투리 혼합된 영어-힌디어 트윗 코퍼스를 사자증상 및 토큰 수준의 언어 태그로 주석 처리한 것으로, 다국어 소셜 미디어 텍스트에서 사자증상 탐지 가능하게 한다. 10겹 교차검증을 사용한 지도 학습 랜덤 포레스트 분류기로 평균 F-스코어 78.4를 달성하여, 사투리 혼합 인도어 다국어에서의 사자증상 탐지에 기초를 마련한다.

ABSTRACT

Social media platforms like twitter and facebook have be- come two of the largest mediums used by people to express their views to- wards different topics. Generation of such large user data has made NLP tasks like sentiment analysis and opinion mining much more important. Using sarcasm in texts on social media has become a popular trend lately. Using sarcasm reverses the meaning and polarity of what is implied by the text which poses challenge for many NLP tasks. The task of sarcasm detection in text is gaining more and more importance for both commer- cial and security services. We present the first English-Hindi code-mixed dataset of tweets marked for presence of sarcasm and irony where each token is also annotated with a language tag. We present a baseline su- pervised classification system developed using the same dataset which achieves an average F-score of 78.4 after using random forest classifier and performing 10-fold cross validation.

연구 동기 및 목표

  • 영어-힌디어 사투리 혼합 소셜 미디어 텍스트에서 사자증상 탐지에 대한 주석 처리된 자원의 부족을 해결하기 위해.
  • 다양한 분야에서 사자증상과 언어 태그가 부여된 토큰 수준의 레이블을 포함한 대규모 코퍼스를 수집하고 수동 주석 처리하기 위해.
  • 사투리 혼합 다국어 텍스트에서 사자증상 탐지에 대한 기초 지도 학습 분류 시스템을 개발하기 위해.
  • 다양한 언어적 특징—n-그램, 이모티콘, 사자증상 유도 토큰—이 사자증상 탐지 성능에 미치는 기여도를 평가하기 위해.
  • 향후 연구를 지원하기 위해 공개된 데이터셋과 모델을 제공하기 위해.

제안 방법

  • 정치, 크리켓, 볼리우드와 관련된 해시태그 #sarcasm 및 #irony, 키워드를 사용해 트위터 스크래퍼 API를 통해 트윗을 수집하였다.
  • 상호 주석자 간 일致도를 위해 코HEN의 카파 값 0.79를 확보한 'YES' 또는 'NO' 레이블을 사용해 각 트윗의 사자증상 존재 여부를 수동 주석 처리하였다.
  • 공백 기반 토크나이제이션을 수행하고, 각 토큰에 대해 영어/힌디어 언어 태그를 할당하였으며, 수동으로 확인하였다.
  • 네 가지 유형의 특징을 추출하였다: 문자 n-그램(n=1–3, 빈도 ≥8), 단어 n-그램(n=1–3, 빈도 ≥8), 사자증상 유도 토큰(점수 ≥0.6, 빈도 ≥5), 및 27개의 사전 정의된 이모티콘.
  • 모델 효율성을 향상시키기 위해 카이제곱 특징 선택을 적용하여 특징 공간을 500차원으로 축소하였다.
  • 전체 데이터셋에서 10겹 교차검증을 사용해 RBF 커널 SVM, 선형 SVM, 랜덤 포레스트의 세 가지 분류기 모두를 훈련 및 평가하였다.

실험 결과

연구 질문

  • RQ1영어-힌디어 사투리 혼합 트윗에서 지도 학습 분류 시스템의 사자증상 탐지 성능은 어떠한가?
  • RQ2다양한 언어적 특징(n-그램, 이모티콘, 사자증상 유도 토큰)이 사자증상 탐지 정확도에 어떤 기여를 하는가?
  • RQ3다국어 사투리 혼합 데이터셋이 자원이 적은 언어 환경에서 사자증상 탐지 모델의 강건성에 기여할 수 있는가?
  • RQ4특징 선택이 사자증상 탐지 작업의 모델 성능에 어떤 영향을 미치는가?
  • RQ5다양한 분야에서 온 사자증상이 있는 트윗과 없는 트윗을 포함함으로써 모델 일반화 능력에 어떤 영향을 미치는가?

주요 결과

  • 랜덤 포레스트 분류기가 10겹 교차검증을 통해 데이터셋에서 최고의 평균 F-스코어 78.4를 기록하였다.
  • 랜덤 포레스트 분류기에서 단어 n-그램이 가장 우수한 성능을 보였으며, F-스코어 76.7을 달성하였다.
  • 문자 n-그램은 RBF 커널 SVM에서 최고의 성능을 보였으며, F-스코어 73.1을 기록하였다.
  • 사자증상 유도 토큰은 선형 SVM에서 뛰어난 성능을 보였으며, F-스코어 70.2를 달성하였다.
  • 모든 특징의 조합은 RBF 커널 SVM에서 F-스코어 76.5, 랜덤 포레스트에서 78.4, 선형 SVM에서 71.7을 기록하였다.
  • 데이터셋은 높은 상호 주석자 간 일치도(Cohen’s Kappa = 0.79)를 보이며 주석의 신뢰성을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.