[論文レビュー] A systematic review of Hate Speech automatic detection using Natural Language Processing
この論文は、NLPにおける自動的なヘイトスピーチ検出のPRISMAベースの系統的レビューを提供し、言語とプラットフォームを跨ぐデータセット、手法、深層学習の動向に焦点を当てる。
With the multiplication of social media platforms, which offer anonymity, easy access and online community formation, and online debate, the issue of hate speech detection and tracking becomes a growing challenge to society, individual, policy-makers and researchers. Despite efforts for leveraging automatic techniques for automatic detection and monitoring, their performances are still far from satisfactory, which constantly calls for future research on the issue. This paper provides a systematic review of literature in this field, with a focus on natural language processing and deep learning technologies, highlighting the terminology, processing pipeline, core methods employed, with a focal point on deep learning architecture. From a methodological perspective, we adopt PRISMA guideline of systematic review of the last 10 years literature from ACM Digital Library and Google Scholar. In the sequel, existing surveys, limitations, and future research directions are extensively discussed.
研究の動機と目的
- NLPと深層学習を用いた自動的なテキスト型ヘイトスピーチ検出に関する文献を更新する。
- 研究間での処理パイプライン、特徴量セット、およびモデリング手法を分析する。
- ヘイトスピーチ検出に用いられるデータセット、ベンチマーク、およびオープンソースプロジェクトを要約する。
- 多言語環境における今後の研究のギャップ、課題、および方向性を特定する。
提案手法
- 約2000–2021年にかけて、ACM Digital LibraryとGoogle Scholarから文献を収集・精査するためにPRISMAガイドラインを採用する。
- 研究を機械学習対深層学習アプローチおよび特徴量セット(例:TF-IDF、埋め込み)で分類する。
- データソース(例:Twitter、YouTube)、言語(多言語を重視)、評価指標を分析する。
- 出版会場とトレンドを特定する(例:2017年以降のDLの取り入れの拡大;ACL/ArXiv/IEEE/Springer/ACMの優位性)。
- 分野におけるデータセット、オープンソースプロジェクト、および方法論的限界を議論する。
実験結果
リサーチクエスチョン
- RQ1Q1:過去の文献における自動ヘイトスピーチ検出のためのさまざまなヘイトスピーチの枝分かれと範囲の特性は何か?
- RQ2Q2:実務における自動ヘイトスピーチ検出における深層学習技術の現状はどうか?
- RQ3Q3:実務におけるヘイトスピーチデータセットの現状はどうか?
主な発見
- 2000–2021年のヘイトスピーチ自動検出に関する463件の論文を特定(非DL手法を含む)。
- 2017–2021年には深層学習手法を採用した論文が96件見つかった。
- ツイッターとYouTubeはヘイトスピース研究の主要データソースである。
- 2017年以降、 DLベースのヘイトスピーチ研究は急速に成長し、年ごとに公開が顕著に増加している。
- 発表は72の会場にまたがり、ACL系会場とArXivが最も一般的である。
- データセットと研究には多言語・言語横断の側面があり、資源の幅広く進化する状況がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。