QUICK REVIEW

[論文レビュー] Degree based Classification of Harmful Speech using Twitter Data

Sanjana Sharma, Saksham Agrawal|arXiv (Cornell University)|Aug 1, 2018

Hate Speech and Cyberbullying Detection参考文献 8被引用数 5

ひとこと要約

本稿は、憎しみの意図の度合いに基づいて、Twitterにおける有害発言を新しい形の本体論的分類法で提示し、これらのクラスを含む新しいデータセットをアノテートした。本稿は、こうした微細な有害発言のカテゴリを検出できる教師あり分類システムを導入し、より強固で微細な自動検出システムの基盤を築いた。

ABSTRACT

Harmful speech has various forms and it has been plaguing the social media in different ways. If we need to crackdown different degrees of hate speech and abusive behavior amongst it, the classification needs to be based on complex ramifications which needs to be defined and hold accountable for, other than racist, sexist or against some particular group and community. This paper primarily describes how we created an ontological classification of harmful speech based on degree of hateful intent and used it to annotate twitter data accordingly. The key contribution of this paper is the new dataset of tweets we created based on ontological classes and degrees of harmful speech found in the text. We also propose supervised classification system for recognizing these respective harmful speech classes in the texts hence. This serves as a preliminary work to lay down foundation on defining different classes of harmful speech and subsequent work will be done in making it’s automatic detection more robust and efficient.

研究の動機と目的

単なるグループ指向の憎しみを超えて、憎しみの意図の度合いを定義することで、有害発言検出における微細な分類の欠如に対処すること。
ソーシャルメディアのコンテンツにおける有害発言の複雑さと段階的変化を捉える本体論的フレームワークを構築すること。
本体論的クラスおよび有害発言の度合いに従ってラベル付けされた、新しいTwitterツイートのアノテート済みデータセットを作成すること。
テキストデータにおいてこうした明確なカテゴリを認識できる教師あり分類システムを設計・実装すること。

提案手法

グループ標的ではなく、憎しみの意図の度合いに基づいて有害発言を分類する本体論的分類システムを開発した。
提案された本体論的クラスおよび有害発言の度合いに従って、大規模なTwitterデータセットをアノテートした。
アノテート済みデータセット上で教師あり機械学習技術を用いて分類モデルを学習させ、有害発言のカテゴリを認識するようにした。
有害発言の意図の度合いに応じたツイートラベリングのための明確な基準を定義・適用し、微細な分類を可能にした。

実験結果

リサーチクエスチョン

RQ1単なるグループ指向の憎しみではなく、憎しみの意図の度合いに基づいて、有害発言を体系的に分類する方法は何か？
RQ2Twitterデータにおける、有害発言の異なる度合いの間の主な特徴と違いは何か？
RQ3教師あり分類システムは、こうした微細な有害発言カテゴリを検出するのにどの程度有効か？
RQ4度合いに基づいた有害発言クラスにアノテートされた、新しい微細なTwitterツイートデータセットはどのような構造になっているか？

主な発見

本稿は、本体論的クラスおよび有害発言の度合いにアノテートされた新しいTwitterツイートデータセットを成功裏に構築した。
提案された教師あり分類システムは、微細な有害発言カテゴリの検出において実現可能性を示した。
本体論的フレームワークにより、二値またはグループ中心のラベルを超えた、より複雑で説明責任のある有害発言分類が可能になった。
本研究は、より高い精度と粒度で有害発言を自動検出するための基盤フレームワークを提供した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。