QUICK REVIEW

[論文レビュー] Characterizing Linguistic Attributes for Automatic Classification of Intent Based Racist/Radicalized Posts on Tumblr Micro-Blogging Website

Swati Agarwal, Ashish Sureka|arXiv (Cornell University)|Jan 18, 2017

Hate Speech and Cyberbullying Detection参考文献 8被引用数 48

ひとこと要約

本論文は、言語的特徴、感情的傾向、パーソナリティ特徴を分析することで、英語圏のTumblrマイクロブログにおける差別的・過激主義的意図を自動的に分類するための段階的アンサンブル学習手法を提案する。この手法は、感情のトーン、文章の特徴、社会的傾向を主な判別特徴として活用し、曖昧なまたは皮肉表現を含む投稿における意図特定において、キーワードベース手法よりも精度を向上させた。

ABSTRACT

Research shows that many like-minded people use popular microblogging websites for posting hateful speech against various religions and race. Automatic identification of racist and hate promoting posts is required for building social media intelligence and security informatics based solutions. However, just keyword spotting based techniques cannot be used to accurately identify the intent of a post. In this paper, we address the challenge of the presence of ambiguity in such posts by identifying the intent of author. We conduct our study on Tumblr microblogging website and develop a cascaded ensemble learning classifier for identifying the posts having racist or radicalized intent. We train our model by identifying various semantic, sentiment and linguistic features from free-form text. Our experimental results shows that the proposed approach is effective and the emotion tone, social tendencies, language cues and personality traits of a narrative are discriminatory features for identifying the racist intent behind a post.

研究の動機と目的

キーワードベース手法が失敗する曖昧で短い形式のソーシャルメディア投稿において、差別的・過激主義的意図を特定する課題に対処すること。
従来の手法を上回る分類精度を実現する段階的アンサンブル学習分類器を開発すること。
差別的・過激主義的ナラティブと非憎悪的ナラティブを区別するための言語的、感情的、パーソナリティベースの特徴を同定・検証すること。
トピック分類を用いて、関連のないまたはノイズの多い投稿をフィルタリングすることで、意図検出の精度を向上させること。
包括的な意図理解を可能にする自動化された有害コンテンツ検出を支援することで、ソーシャルメディアインテリジェンスおよびセキュリティインフォーマティクスを強化すること。

提案手法

本研究では、段階的アンサンブル学習を用いた二段階のワンクラス分類フレームワークを採用し、Tumblrマイクロブログにおける意図検出を実施する。
言語的特徴は、感情分析、感情のトーン、意味的タグ付け、文章の特徴、社会的傾向を測定するためのオープンソースAPIを用いて抽出する。
決定木、ナイーブベイズ、ランダムフォレストといった複数の分類器を、特徴レベルのアンサンブル戦略で統合することで、モデルの頑健性を向上させる。
個々の特徴ベクトルやペアの特徴ベクトルを系統的に削除することで、精度および性能に与える影響を評価し、特徴の重要度を分析する。
非関連トピックまたはノイズの多い投稿をフィルタリングするために、トピック分類を適用し、全体の分類器精度を向上させる。
特徴抽出を豊かにするために、タグレベルの分析とタグ内の文検出を統合する。

実験結果

リサーチクエスチョン

RQ1マイクロブログにおける差別的・過激主義的意図と非憎悪的ナラティブを区別するうえで、どの言語的・感情的・パーソナリティ的特徴が最も効果的か。
RQ2感情のトーンや文章の特徴といった重要な特徴を削除した場合、意図分類の性能はどのように変化するか。
RQ3トピック分類および非関連投稿のフィルタリングが、意図検出の精度をどの程度向上させるか。
RQ4曖昧なまたは皮肉表現を含む投稿は、意図分類の信頼性にどのように影響を及ぼし、言語的特徴がその影響を緩和できるか。
RQ5段階的特徴選択を伴うアンサンブル学習は、単一分類器やキーワードベース手法を上回る性能を示せるか。

主な発見

感情のトーン、文章の特徴、社会的パーソナリティ的特徴は、すべての分類器およびデータセットにおいて一貫して最も判別力のある特徴であった。
F1（文章の特徴）を個別に削除すると、Test-Data1では精度が6%低下し、Test-Data2では2.25%低下した。これは、F1が精度に顕著な正の影響を与えていることを示している。
決定木では、F1が他の特徴に悪影響を及えた。これは、特徴間の干渉が生じる可能性を示唆している。
ナイーブベイズでは、社会的トーン（F5）を他の特徴と組み合わせると性能が低下したが、F3またはF4とF5を組み合わせることで精度が1%〜2%向上した。
ランダムフォレストでは、F3（感情のトーン）やF4（文章の特徴）を含む任意の2つの特徴を削除すると、性能が少なくとも4%低下した。これは、これらの特徴が極めて重要な役割を果たしていることを確認している。
意味的タグ付け（F2）と社会的傾向（F5）は、広範なトピックや感情の範囲を含む投稿において重要であり、分類の曖昧さを低減するのに役立った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。