QUICK REVIEW

[論文レビュー] Detecting Hate Speech in Social Media

Shervin Malmasi, Marcos Zampieri|arXiv (Cornell University)|Dec 18, 2017

Hate Speech and Cyberbullying Detection参考文献 18被引用数 33

ひとこと要約

本論文は、3クラスのTwitterデータセット（嫌がらせ発言、攻撃的表現、非攻撃的）を用いて、文字n-gram、単語n-gram、スキップグラムを用いた教師あり分類を適用することで、ソーシャルメディアにおける嫌がらせ発言検出の語彙的ベースラインを確立した。最も優れたモデルは、文字4-gramと線形SVMを組み合わせたもので、78%の正解率を達成した。これは、嫌がらせ発言と一般の不適切表現の区別が依然として大きな課題であることを示しており、顕著なクラスの混同が生じていることが要因である。

ABSTRACT

In this paper we examine methods to detect hate speech in social media, while distinguishing this from general profanity. We aim to establish lexical baselines for this task by applying supervised classification methods using a recently released dataset annotated for this purpose. As features, our system uses character n-grams, word n-grams and word skip-grams. We obtain results of 78% accuracy in identifying posts across three classes. Results demonstrate that the main challenge lies in discriminating profanity and hate speech from each other. A number of directions for future work are discussed.

研究の動機と目的

ソーシャルメディアにおける嫌がらせ発言検出の語彙的ベースラインを確立し、特に一般の不適切表現との区別を目的とする。
多クラス分類設定におけるさまざまなn-gramおよびクラスタリング特徴の性能を評価すること。
嫌がらせ発言と、嫌がらせではないが攻撃的な内容を含むコンテンツを区別する際の核心的な課題を特定すること。
嫌がらせ発言検出データセットにおける特徴の重要度と誤分類のパターンを分析することで、今後の研究の基盤を提供すること。

提案手法

3クラスのTwitterデータセットを対象に、多クラステキスト分類のための線形サポートベクターマシン（SVM）分類器を用いた。
特徴量には、最大4-gramまでの文字n-gram、最大2-gramまでの単語n-gram、最大2-gramまでの単語スキップグラム、およびブラウン単語クラスタリングを含めた。
データセットは、テキストを小文字に変換し、URLおよび絵文字を削除することで前処理を行った。
モデルの学習と評価には、クラスの不均衡に対処するためのストラティファイドサンプリングを用いた10分割交差検証を実施した。
学習曲線をプロットして、訓練データサイズの関数としての性能を評価した。
誤分類のパターンを分析するため、混同行列を生成した。特に、嫌がらせ発言と攻撃的表現のクラス間での誤分類に注目した。

実験結果

リサーチクエスチョン

RQ1語彙的特徴のみで、ソーシャルメディアのテキストにおいて、嫌がらせ発言と攻撃的表現、非攻撃的コンテンツをどれほど正確に区別できるか？
RQ2多クラス嫌がらせ発言検出タスクにおいて、さまざまなn-gramおよびクラスタリング特徴の性能はいかがなものか？
RQ3嫌がらせ発言と攻撃的表現の間の混同は、どの程度、重複する語彙的コンテンツに起因しているか？
RQ4クラスの不均衡はモデルの性能にどの程度影響を及ぼし、訓練データの増加が正解率の向上に寄与するか？
RQ53つのクラスそれぞれに対して最も情報量の多い特徴は何か？また、それらは意味的・スタイル的ヒントとどのように関連しているか？

主な発見

文字4-gramモデルが78%の最高正解率を達成し、他の特徴タイプを上回った。
嫌がらせ発言（Hate）クラスは最も分類が困難で、攻撃的表現（Offensive）クラスからの高い混同率を示した。
攻撃的表現の大部分が非攻撃的（Ok）と誤分類されており、一般の不適切表現の検出が不十分であることが示された。
非攻撃的（Ok）クラスは最も高い分類性能を示し、大多数の例が正しく識別された。
学習曲線から、訓練データ量の増加に伴い正解率が徐々に向上することがわかったが、15,000件を超えるとその増加率は緩やかになった。
特徴分析から、粗い言葉や不適切な言葉が、嫌がらせ発言および攻撃的表現の両方のクラスにおいて、非常に情報量の多い特徴であることが判明した。一方、文法的語彙は、非攻撃的（Ok）クラスの最も情報量の多い特徴に顕著に現れた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。