Skip to main content
QUICK REVIEW

[論文レビュー] Tackling Online Abuse: A Survey of Automated Abuse Detection Methods

Pushkar Mishra, Helen Yannakoudakis|arXiv (Cornell University)|Aug 13, 2019
Hate Speech and Cyberbullying Detection参考文献 86被引用数 52
ひとこと要約

この論文は、NLPにおける自動的な乱用検出の包括的調査を提供し、データセット、手法(テキスト、ソーシャル、ニューラルアプローチ)、傾向、課題、倫理ガイドラインを扱う。

ABSTRACT

Abuse on the Internet represents an important societal problem of our time. Millions of Internet users face harassment, racism, personal attacks, and other types of abuse on online platforms. The psychological effects of such abuse on individuals can be profound and lasting. Consequently, over the past few years, there has been a substantial research effort towards automated abuse detection in the field of natural language processing (NLP). In this paper, we present a comprehensive survey of the methods that have been proposed to date, thus providing a platform for further development of this area. We describe the existing datasets and review the computational approaches to abuse detection, analyzing their strengths and limitations. We discuss the main trends that emerge, highlight the challenges that remain, outline possible solutions, and propose guidelines for ethics and explainability

研究の動機と目的

  • さまざまなプラットフォームと言語で乱用検出に用いられる一般的な注釈付きデータセットをレビューする。
  • 特徴量エンジニアリング、ニューラル、マルチモーダルアプローチを乱用検出へ要約する。
  • 傾向、課題(暗黙/文脈、難読化、ドメイン横断転送)と潜在的解決策を分析する。
  • 乱用分類(明示的 vs 暗黙的)に沿った倫理と explainability ガイドラインを提案する。

提案手法

  • データセットを出典プラットフォームと構成別に整理し、乱用タイプのカバー範囲を強調する。
  • 特徴量エンジニアリング手法をテキスト系(規則/語彙、BOW/TF-IDF)とソーシャル特徴(ユーザープロファイリング)に分類する。
  • ニューラルアプローチを議論する: 分散表現、深層テキストモデル、ソーシャルコンテキストのモデリング。
  • マルチモーダルで文脈依存のモデリング動向を要約する(ユーザー埋め込み、グラフベースの手法、談話)。
  • 暗黙的な乱用、ドメイン横断転送、倫理/解釈可能性に対する課題と提案された解決策を概説する。

実験結果

リサーチクエスチョン

  • RQ1注釈付き乱用検出に使用されるデータセットは何か、どのような偏りやギャップがあるのか。
  • RQ2乱用検出のために検討された方法論的アプローチ(テキスト、ソーシャル、ニューラル)は何か、ドメイン間でどのように性能を発揮するか。
  • RQ3暗黙/比喩的表現、ドメイン横断一般化など、乱用検出の主な課題は何か、そしてどのような潜在的解決策が存在するか。
  • RQ4乱用検出システムにはどのような倫理と説明可能性のガイドラインが伴うべきか。

主な発見

  • ニューラルと非ニューラルの手法の双方が寄与している;サブワードモデルと文字n-gramは難読化された言語に有効。
  • ユーザープロファイリングとグラフベースの埋め込みは、テキストのみのモデルより乱用検出性能を向上させることができる。
  • 文脈依存かつ談話を意識したモデリング(会話履歴を含む)は暗黙的な乱用の検出を強化する。
  • ドメイン横断および言語横断の一般化は依然として大きな課題であり、ドメイン適応とマルチタスク学習が潜在的な成果を提供する。
  • BERT様の文脈モデルは最近のドイツ語タスクで顕著となっており、共有タスクのCNN/RNNベースラインを上回ることが多い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。