[논문 리뷰] Preparing Bengali-English Code-Mixed Corpus for Sentiment Analysis of Indian Languages
이 논문은 감성 분석을 위한 하이브리드 규칙 기반 및 지도 학습 모델을 사용하여 자동으로 언어 및 감성 태깅을 수행하는 하이브리드 규칙 기반 및 지도 학습 모델을 활용해 구축한 골드 표준 벤골리-영어 혼합 코퍼스를 제시한다. 언어 식별 정확도는 81%이며 감성 분류 정확도는 80.97%를 기록한다. 이 코퍼스는 JSON 형식으로 배포되었으며 감성 분류에 대해 높은 상호 평가자 간 일致도(kappa = 0.94)를 보였다. 포함된 자료로는 태깅된 데이터, 어휘집, 그리고 트위터 API 쿼리용 시드 리스트가 있다.
Analysis of informative contents and sentiments of social users has been attempted quite intensively in the recent past. Most of the systems are usable only for monolingual data and fails or gives poor results when used on data with code-mixing property. To gather attention and encourage researchers to work on this crisis, we prepared gold standard Bengali-English code-mixed data with language and polarity tag for sentiment analysis purposes. In this paper, we discuss the systems we prepared to collect and filter raw Twitter data. In order to reduce manual work while annotation, hybrid systems combining rule based and supervised models were developed for both language and sentiment tagging. The final corpus was annotated by a group of annotators following a few guidelines. The gold standard corpus thus obtained has impressive inter-annotator agreement obtained in terms of Kappa values. Various metrics like Code-Mixed Index (CMI), Code-Mixed Factor (CF) along with various aspects (language and emotion) also qualitatively polled the code-mixed and sentiment properties of the corpus.
연구 동기 및 목표
- 인도어, 특히 벤골리-영어 혼합 언어에 대해 고품질의 공개 가능한 혼합 코퍼스가 부족한 문제를 해결하기 위해.
- 하이브리드 시스템을 통해 규칙 기반 및 지도 학습 모델을 조합하여 언어 및 감성 태깅을 위한 수동 태깅 작업을 줄이기 위해.
- 고품질의 혼합 언어 트위터 데이터 수집 및 필터링을 위한 신뢰할 수 있고 확장 가능한 파이프라인을 개발하기 위해.
- 향후 혼합 언어 인도어에 대한 NLP 시스템 평가를 위한 기준으로 사용할 수 있는 고품질의 골드 표준 데이터셋을 구축하기 위해.
- 언어 태그, 감성 극성, 어휘 자원을 포함한 구조화되고 기계로 읽을 수 있는 코퍼스를 JSON 형식으로 배포하기 위해.
제안 방법
- 벤골리-영어 혼합 콘텐츠를 확보하기 위해 1,500개의 쿼리어휘로 구성된 시드 리스트를 사용하여 원시 트위터 데이터를 수집하였다.
- 태깅 이전에 데이터 품질을 향상시키고 노이즈를 줄이기 위해 필터링 파이프라인을 구현하였다.
- 문자 n-그램, 어휘집 매칭, 지도 학습 분류기 조합을 활용한 하이브리드 언어 식별 시스템을 개발하여 81%의 정확도를 달성하였다.
- 규칙 기반 극성 어휘집(1,200개의 어구, 3,000개의 단일어어휘)과 지도 학습(SGDC)을 조합한 감성 분류 모델을 구축하여 80.97%의 정확도를 달성하였다.
- 표준화된 가이드라인을 따르며 훈련된 태거들이 최종 코퍼스를 태깅하였으며, 언어 태깅에 대해 Fleiss의 Kappa 0.83, 감성 태깅에 대해 0.94의 높은 상호 평가자 간 일치도를 확보하였다.
- 계층적 데이터 표현과 효율적 처리를 지원하기 위해 JSON 형식으로 데이터셋을 배포하였다.
실험 결과
연구 질문
- RQ1어떻게 하면 감성 분석 작업에 적합한 고품질의 혼합 언어 벤골리-영어 소셜 미디어 데이터를 효율적으로 수집하고 필터링할 수 있는가?
- RQ2혼합 스크립트와 문법을 가진 혼합 언어 텍스트에서 정확하고 확장 가능한 언어 식별을 가능하게 하는 하이브리드 접근 방식은 무엇인가?
- RQ3규칙 기반 어휘집과 지도 학습 모델의 조합이 혼합 언어 인도어 텍스트의 감성 분류 정확도를 향상시킬 수 있는가?
- RQ4벤골리-영어 혼합 코퍼스에서 언어 및 감성 태깅에 대한 상호 평가자 간 일치 수준은 어느 정도인가?
- RQ5코드 믹싱 지수, 이모티콘 사용 빈도, 단어 빈도와 같은 언어학적 특징들이 혼합 언어 데이터의 감성과 어떤 관련이 있는가?
주요 결과
- 언어 태깅 시스템은 최종 골드 표준 데이터에서 81%의 정확도를 달성하여 혼합 언어 세그먼트 식별에 뛰어난 강건성을 보였다.
- 감성 분류 시스템은 80.97%의 정확도와 81.2%의 F1 스코어를 기록하였으며, 혼합 언어 데이터에서 단일 언어 모델보다 뚜렷하게 뛰어난 성능을 보였다.
- 상호 평가자 간 일치도가 높았으며, 언어 태깅에 대해 Fleiss의 Kappa 0.83, 감성 태깅에 대해 0.94를 기록하여 태깅 일관성이 뛰어났다.
- 사용자들은 벤골리어보다 영어 극성 어휘를 더 많이 사용하며, 훈련 데이터에서 영어로는 587개의 긍정어, 416개의 부정어가 사용되었고, 벤골리어로는 각각 118개와 757개가 사용되었다.
- 어휘 자원으로서 포괄적인 자료 세트를 포함하고 있다: 1,200개의 어구 어휘집, 3,000개의 발음적으로 표기된 벤골리어 단일어 어휘집, 그리고 자주 사용되는 이모티콘 목록.
- 최종 데이터셋은 JSON 형식으로 배포되어 계층적이고 태깅된 데이터의 효율적 저장 및 파싱을 가능하게 하였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.