Skip to main content
QUICK REVIEW

[論文レビュー] L3Cube-MahaHate: A Tweet-based Marathi Hate Speech Detection Dataset and BERT models

Abhishek Velankar, Hrushikesh Patil|arXiv (Cornell University)|Mar 25, 2022
Hate Speech and Cyberbullying Detection被引用数 25
ひとこと要約

本論文は L3Cube-MahaHate を紹介する。4ラベルを持つ25kツイートのマラーティ hate speech データセットで、CNN、LSTM、BiLSTM、そしてトランスフォーマーをベンチマークし、単言語マラーティBERTが多言語版を上回ることを示す。MahaBERT が最良の二値分類精度、MahaRoBERTa が最良の四クラス分類精度を達成。

ABSTRACT

Social media platforms are used by a large number of people prominently to express their thoughts and opinions. However, these platforms have contributed to a substantial amount of hateful and abusive content as well. Therefore, it is important to curb the spread of hate speech on these platforms. In India, Marathi is one of the most popular languages used by a wide audience. In this work, we present L3Cube-MahaHate, the first major Hate Speech Dataset in Marathi. The dataset is curated from Twitter, annotated manually. Our dataset consists of over 25000 distinct tweets labeled into four major classes i.e hate, offensive, profane, and not. We present the approaches used for collecting and annotating the data and the challenges faced during the process. Finally, we present baseline classification results using deep learning models based on CNN, LSTM, and Transformers. We explore mono-lingual and multi-lingual variants of BERT like MahaBERT, IndicBERT, mBERT, and xlm-RoBERTa and show that mono-lingual models perform better than their multi-lingual counterparts. The MahaBERT model provides the best results on L3Cube-MahaHate Corpus. The data and models are available at https://github.com/l3cube-pune/MarathiNLP .

研究の動機と目的

  • Twitter からの大規模で手動で注釈付けされた Marathi hate speech データセットを、細かなラベル(Hate, Offensive, Profane, Not)で作成する。
  • CNN、LSTM、BiLSTM、そして transformers を含むベースラインを、モノリンガルおよびマルチリンガルの BERT 変種を含めて提供する。
  • モノ言語 Marathi BERT モデルと多言語版を比較し、性能の利点を評価する。
  • Marathi NLP と hate speech detection の公開データセットとモデルを提供する。

提案手法

  • Twitter から Marathi hate-related keywords および 150 を超える悪語を用いてデータを収集する。母語話者による4クラスへ手動で注釈付けを行う。
  • train/val/test の分割と均一なクラス分布を持つデータセット統計情報を提供し、モデリングを簡易化する。
  • random、trainable、non-trainable の fastText 埋め込みを用いた CNN、LSTM、BiLSTM のベースライン実験。
  • IndicBERT、mBERT、xlm-RoBERTa、MahaBERT、MahaALBERT、MahaRoBERTa を含む transformer ベースのモデルを用い、2クラスおよび4クラス課題でファインチューニングと評価を実施する。
  • MahaHate-BERT および MahaHate-MultiRoberta 変種のモデルハブでの公開リリース、GitHub 上のリソースを提供する。

実験結果

リサーチクエスチョン

  • RQ1Marathi hate speech データセットに対して、最先端の深層学習アーキテクチャは二値分類および4クラス分類でどの程度の性能を発揮するか?
  • RQ2モノリンガル Marathi BERT モデルは Marathi hate speech 検出で多言語版の BERT を上回るか?
  • RQ3どの transformer 変種が 2 クラスおよび 4 クラスの Marathi hate speech 分類で最も高い精度を示すか?
  • RQ4CNN/LSTM のベースラインにおいて、trainable 埋め込みと non-trainable 埋め込みの使用はどのような影響を与えるか?

主な発見

Model2-Class Accuracy4-Class Accuracy
CNN - Random0.8800.703
CNN - Trainable0.8660.710
CNN - Non-Trainable0.8700.751
LSTM - Random0.8570.681
LSTM - Trainable0.8600.691
LSTM - Non-Trainable0.8690.751
BiLSTM - Random0.8580.699
BiLSTM - Trainable0.8600.664
BiLSTM - Non-Trainable0.8700.761
IndicBERT0.8650.711
mBERT0.9030.783
xlm-RoBERTa0.8940.787
MahaALBERT0.8830.764
MahaBERT0.9090.803
MahaRoBERTa0.9020.803
  • non-trainable fastText 埋め込みを用いた CNN/LSTM/BiLSTM のベースラインが競争力のある性能を示し、しばしば trainable な変種を上回る。
  • モノリンガル Marathi BERT モデルは、タスク全体で多言語版を上回る。
  • MahaBERT は 2クラス( binary )の最高精度 0.909 を達成し、MahaRoBERTa は 4クラスの最高精度 0.803 を達成。
  • transformer 変種の中で、MahaBERT と MahaRoBERTa がそれぞれ binary と 4-class 設定でトップの結果を出す。
  • 報告された最高の結果は 2-class: 0.909 (MahaBERT); 4-class: 0.803 (MahaRoBERTa)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。