[논문 리뷰] HP-BERT: A Fine-Tuned BERT Model for Detecting Hinduphobia and Sentiment Analysis
HP-BERT는 코로나19 팬데믹 기간 동안 소셜 미디어에서 힌두포비아를 탐지하고 다국어 감성 분석을 수행하기 위해 최적화된 BERT 모델을 제안한다. 이 모델은 20,000건의 영어 및 아랍어 트윗과 21,000건의 중국 웨이보 게시물을 포함한 다국어, 다중 레이블 주석 데이터셋을 활용하여 여섯 개 언어에서 미묘한 감성을 높은 정확도로 탐지한다. 이를 통해 팬데믹 사건과 연관된 세계적 감성 추세를 드러낸다.
HP-BERT is a specialized BERT-based language model fine-tuned to detect Hinduphobic content on Twitter. The model was developed using the "Hinduphobic COVID-19 X (Twitter) Dataset" which includes over 8,000 tweets collected during the COVID-19 pandemic (November 2019 to December 2022). This dataset features 2,000 manually labeled tweets and additional annotations generated using GPT-3.5 Turbo API. HP-BERT employs a multi-stage fine-tuning strategy, incorporating additional training on the SenWave dataset to enhance its sentiment analysis capabilities. The model is further adapted for analyzing Hinglish (Hindi-English) data, making it highly effective for Indian social media content. HP-BERT is designed to identify Hinduphobic discourse, analyze sentiment polarity, and provide nuanced insights into the emotional tone and context of online discussions. Its applications include detecting toxic language, understanding user behavior, and studying the propagation of Hinduphobia during and post-COVID-19. HP-BERT has been rigorously tested on multiple datasets, including the Global COVID-19 Twitter dataset, capturing trends across six countries (Australia, Brazil, India, Indonesia, Japan, and the United Kingdom). The model offers robust performance in detecting Hinduphobia and abusive language while also contributing to the study of social media dynamics and hate speech detection. HP-BERT is available for public use, fostering further research and development in the fields of sentiment analysis, hate speech detection, and computational social science.
연구 동기 및 목표
- 글로벌 코로나19 팬데믹 기간 동안 소셜 미디어에서 미묘한 감정을 탐지할 수 있는 다국어 감성 분석 시스템을 개발하기 위해.
- 감성 및 힌두포비아 탐지에 적합한 고품질의 다중 레이블 주석 데이터셋(영어 및 아랍어 트윗 20,000건, 중국 웨이보 게시물 21,000건)을 구축하기 위해.
- 영어, 스페인어, 프랑스어, 이탈리아어, 아랍어, 중국어 등 여섯 개 언어에서 감성과 힌두포비아를 동시에 탐지할 수 있도록 훈련 및 평가한 최적화된 BERT 기반 모델(HP-BERT)을 개발하기 위해.
- 봉쇄 조치, 경제 정책, 백신 개발과 같은 주요 팬데믹 사건에 대한 반응으로 시간에 따라 변화하는 감성 추세를 분석하기 위해.
- 연구자들이 글로벌 보건 위기 동안 소셜 미디어 반응을 연구하는 데 사용할 수 있도록 공개 가능한 다국어이자 세분화된 감성 분석 자원을 제공하기 위해.
제안 방법
- 20,000건의 영어 및 아랍어 트윗과 21,000건의 중국 웨이보 게시물을 포함한 다국어, 다중 레이블 주석 데이터셋을 사용해 BERT를 최적화함. 감성 카테고리로는 낙관적, 불안, 슬픔, 짜증, 부정 등 총 10개 항목 포함.
- 간단한transformers 프레임워크를 활용해 주석 데이터 기반 다중 레이블 분류 모델을 훈련시켜 각 게시물에 대해 다중 감성 레이블을 동시에 예측할 수 있도록 함.
- 10,000건의 주석된 영어 트윗을 스페인어, 프랑스어, 이탈리아어로 번역하여 훈련 데이터를 확장하고 언어 간 일반화 능력을 향상시킴.
- 2020년 3월 1일부터 2020년 1월 20일까지 1억 500만 건 이상의 트윗과 웨이보 메시지를 수집 및 처리하여 실시간 감성 변화를 모니터링함.
- 사전 훈련된 다국어 BERT를 사용해 여섯 개 언어별로 별도의 감성 분류 모델을 훈련하고 주석 데이터에 대해 최적화함으로써 다국어 성능을 확보함.
- 직업, 재택근무, 집단면역 등 팬데믹 관련 주제 7개에 대해 감성 비율과 메시지 수의 변화를 추적하여 감성 추세를 분석함.
실험 결과
연구 질문
- RQ1여러 언어에서 주요 팬데믹 사건에 대한 반응으로 소셜 미디어에서 표현된 세계적 감성은 어떻게 변화하는가?
- RQ2최적화된 BERT 모델이 다국어 소셜 미디어 콘텐츠에서 감성과 힌두포비아를 탐지하는 데 얼마나 뛰어난 성능을 보이는가?
- RQ3코로나19 팬데믹 기간 동안 언어 및 주제별 감성 패턴은 어떻게 다름을 보이며, 이는 공중의 인식을 어떻게 드러내는가?
- RQ4스페인어, 프랑스어, 이탈리아어와 같은 저자원 언어에서 번역된 훈련 데이터가 감성 분석 모델 성능 향상에 얼마나 기여하는가?
- RQ5팬데믹 기간 동안 소셜 미디어 논의에서 가장 감정적으로 격렬한 주제는 무엇이며, 감성 추세는 실제 세계 사건과 어떻게 연관되는가?
주요 결과
- 재택근무(WFH) 주제는 낙관적 감성 비율이 가장 높았으며, 트윗의 43%가 낙관적으로 분류되어 다른 주제들보다 뚜렷하게 높았다.
- 의약품/약물/백신 주제는 가장 높은 논의 빈도를 보였고, 하루 최대 20,000~40,000건의 메시지가 유입되었으며, 항말라리아 약물 유행 기간 동안 강한 부정 및 짜증 감성이 유발되었다.
- 경제 자금 지원 및 실업 주제는 3월에는 낙관적이었으나, 4월~5월에 걸쳐 불안과 슬픔 감성이 증가하여 미국 실업률이 14.7%에 도달한 5월 8일~10일에 정점에 달했다.
- 모든 언어의 감성 추세는 급격한 감정 상승 후 서서히 감소하는 유사한 패턴을 보였으며, 집단면역 전략에 대해 강한 부정 반응을 보였다.
- 모델는 다국어 감성 분류에서 높은 성능을 기록했으며, 낙관적 감성이 시간이 지남에 따라 증가하여 팬데믹 이후 더 나은 세상으로의 '초기화' 욕구를 반영했다.
- 20,000건의 영어 및 아랍어 트윗과 21,000건의 중국 웨이보 게시물로 구성된 주석 데이터셋은 향후 감성 분석 및 혐오 발언 탐지 연구를 위한 풍부한 다중 레이블 자원을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.