[論文レビュー] Deep Learning for Hate Speech Detection: A Comparative Study
本論文は、3つの公開ベンチマークにまたがる14個の浅層/深層ヘイトスピーチ検出器を大規模に実証比較し、効果、効率、事前学習の影響、およびドメイン横断一般化を評価する。
Automated hate speech detection is an important tool in combating the spread of hate speech, particularly in social media. Numerous methods have been developed for the task, including a recent proliferation of deep-learning based approaches. A variety of datasets have also been developed, exemplifying various manifestations of the hate-speech detection problem. We present here a large-scale empirical comparison of deep and shallow hate-speech detection methods, mediated through the three most commonly used datasets. Our goal is to illuminate progress in the area, and identify strengths and weaknesses in the current state-of-the-art. We particularly focus our analysis on measures of practical performance, including detection accuracy, computational efficiency, capability in using pre-trained models, and domain generalization. In doing so we aim to provide guidance as to the use of hate-speech detection in practice, quantify the state-of-the-art, and identify future research directions. Code and dataset are available at https://github.com/jmjmalik22/Hate-Speech-Detection.
研究の動機と目的
- 多様なデータセットにおいて、さまざまなヘイトスピーチ検出モデルの性能を評価する。
- 精度と効率の間で有利なトレードオフを提供するモデルを特定する。
- 検出器の性能に対する事前学習方法の影響を評価する。
- ヘイトスピーチ検出器に対するドメインシフトの影響を理解するため、ドメイン横断一般化を検討する。
提案手法
- 検出器を浅層の従来法、単語埋め込みを用いた深層法、変換器ベースの深層法に分類する。
- TF-IDF、GloVe埋め込み、およびtransformerベースの埋め込み(BERT、ALBERT、ELECTRA など)を用いて14 detectorsを評価する。
- 埋め込みと分類器(SVM、XGB、MLP、CNN、Bi-LSTM)を組み合わせ、マクロF1と加重F1を報告する。
- 不均衡クラスを含む3データセット(Davidson、Founta、TSA)を使用し、クラス別指標を報告する。
- エポック時間による計算効率を分析し、実用的なモデル-精度のトレードオフを特定する。
実験結果
リサーチクエスチョン
- RQ1多様なベンチマークデータセットにおいて、人気のヘイトスピーチ検出器はどれくらい効果的か?
- RQ2効果と効率の両方で、一般的に他を上回るモデルはあるか?
- RQ3事前学習方法はヘイトスピーチ検出性能にどのように影響するか?
- RQ4異なるヘイトスピーチの定義と分布を持つドメイン間で、モデルはどれだけ一般化できるか?
主な発見
- Transformerベースの埋め込み(BERT、ALBERT、ELECTRA)は、データセット全体で一貫して最高のマクロF1および加重F1を達成する。
- TF-IDFベースのXGBoostおよびTF-IDFベースのMLPも競争力がある場合があり、特にデータ量が多い、またはよりバランスの取れた部分で有利だが、一般にtransformersが性能で優位である。
- Transformerモデルは訓練時間が長くなる。Small BERTはtransformersの中で最も効率的である。
- 事前訓練済みの埋め込み(特にtransformerベース)は、非事前訓練またはTF-IDFのベースラインを3データセットすべてで上回る。
- ドメイン間評価は、あるデータセットから別のデータセットへ転送した場合に一般化の低下を示すが、ELECTRA-CNNはしばしば堅牢な選択として高い性能を維持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。