[論文レビュー] HP-BERT: A Fine-Tuned BERT Model for Detecting Hinduphobia and Sentiment Analysis
HP-BERTは、COVID-19パンデミック期のソーシャルメディアにおけるヒン두フェビア(Hinduphobia)検出および多言語感情分析のためのファインチューニングされたBERTモデルを提案する。20,000件の英語およびアラビア語ツイートと21,000件の中国語ウェイボー投稿から成る多言語・多ラベルラベル付きデータセットを活用し、6か国語で微細な感情を高精度に検出。パンデミック関連の出来事と関連する世界的な感情の傾向を明らかにした。
HP-BERT is a specialized BERT-based language model fine-tuned to detect Hinduphobic content on Twitter. The model was developed using the "Hinduphobic COVID-19 X (Twitter) Dataset" which includes over 8,000 tweets collected during the COVID-19 pandemic (November 2019 to December 2022). This dataset features 2,000 manually labeled tweets and additional annotations generated using GPT-3.5 Turbo API. HP-BERT employs a multi-stage fine-tuning strategy, incorporating additional training on the SenWave dataset to enhance its sentiment analysis capabilities. The model is further adapted for analyzing Hinglish (Hindi-English) data, making it highly effective for Indian social media content. HP-BERT is designed to identify Hinduphobic discourse, analyze sentiment polarity, and provide nuanced insights into the emotional tone and context of online discussions. Its applications include detecting toxic language, understanding user behavior, and studying the propagation of Hinduphobia during and post-COVID-19. HP-BERT has been rigorously tested on multiple datasets, including the Global COVID-19 Twitter dataset, capturing trends across six countries (Australia, Brazil, India, Indonesia, Japan, and the United Kingdom). The model offers robust performance in detecting Hinduphobia and abusive language while also contributing to the study of social media dynamics and hate speech detection. HP-BERT is available for public use, fostering further research and development in the fields of sentiment analysis, hate speech detection, and computational social science.
研究の動機と目的
- グローバルなCOVID-19パンデミック期におけるソーシャルメディアの微細な感情を検出できる多言語感情分析システムの開発。
- 感情およびヒンドルフェビア検出のための高品質な多ラベルラベル付きデータセット(英語およびアラビア語ツイート20,000件、中国語ウェイボー投稿21,000件)の作成。
- 6か国語(英語、スペイン語、フランス語、イタリア語、アラビア語、中国語)で感情およびヒンドルフェビアを同時に検出可能なファインチューニングされたBERTベースモデル(HP-BERT)の訓練および評価。
- ロックダウン、経済政策、ワクチン開発などの重要なパンデミック関連出来事に対する時間的感情トレンドの分析。
- グローバルな健康危機へのソーシャルメディア反応を研究する研究者向けに、公開可能で多言語的かつ微細な感情分析リソースの提供。
提案手法
- 20,000件の英語およびアラビア語ツイートと21,000件の中国語ウェイボー投稿から成る多言語・多ラベルラベル付きデータセットを用いて、BERTをファインチューニング。感情カテゴリ10種類(楽観的、不安、悲嘆、不満、否定など)にラベル付けされたデータ。
- simpletransformersフレームワークを用いて、複数の感情ラベルを同時に予測可能な多ラベル分類モデルを訓練。
- 10,000件のラベル付き英語ツイートをスペイン語、フランス語、イタリア語に翻訳し、訓練データを拡張し、言語間の汎化性能を向上。
- 2020年3月1日から2020年1月20日までの間に、1億500万件を超えるツイートおよびウェイボー投稿を収集・処理し、リアルタイムの感情変化をモニタリング。
- 事前学習済みの多言語BERTを用い、ラベル付きデータでファインチューニングすることで、6か国語用に個別の感情分類モデルを訓練。これにより言語間の性能を確保。
- 雇用、在宅勤務、集団免疫などの7つのパンデミック関連トピックについて、感情の割合と投稿数の変化を追跡し、時間的経過に伴う感情トレンドを分析。
実験結果
リサーチクエスチョン
- RQ1複数の言語で、ソーシャルメディアに表現される感情は、パンデミックの重要な出来事に対してどのように変化するか?
- RQ2ファインチューニングされたBERTモデルは、多言語ソーシャルメディアコンテンツにおける感情およびヒンドルフェビア検出において、どの程度の性能を示すか?
- RQ3COVID-19パンデミック期における言語およびトピックごとの感情パターンはどのように異なるのか。また、それらは公衆の認識を何を示唆するか?
- RQ4翻訳された訓練データは、スペイン語、フランス語、イタリア語のような低リソース言語の感情分析モデル性能をどの程度向上できるか?
- RQ5パンデミック期のソーシャルメディア議論において、最も感情的で強いトピックは何か。また、感情トレンドは現実の出来事とどの程度相関しているか?
主な発見
- 在宅勤務(WFH)トピックは、楽観的と分類されたツイートが43%を占め、他のトピックに比べて著しく高い割合を示した。
- 薬品/医薬品/ワクチントピックは、議論の件数が最も多く、1日あたり20,000~40,000件に達した。特に抗マラリア薬ブームの時期には、否定的および不満の感情が強く現れた。
- 経済刺激策および失業問題のトピックは、3月には楽観的だったが、4月から5月にかけて不安と悲嘆の感情が増加し、米国の失業率が14.7%に達した5月8日~10日にピークに達した。
- 全言語における感情トレンドは、急激な感情の上昇に続いて緩やかに低下するという類似したパターンを示し、集団免疫戦略に対して強い否定的反応が見られた。
- 多言語感情分類において、モデルは高い性能を示した。楽観的感情は時間経過とともに増加し、パンデミック後のより良い世界への「リセット」を求める集団的願いを示唆した。
- 英語およびアラビア語ツイート20,000件、中国語ウェイボー投稿21,000件から成るラベル付きデータセットは、将来的な感情分析および嫌がらせ検出研究のための豊富な多ラベルリソースを提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。