[論文レビュー] Forecasting the presence and intensity of hostility on Instagram using linguistic and social features
本論文では、初期のコメントからの言語的および社会的特徴を用いて、Instagramのコメント欄における敵意の有無と強度を予測するモデルを提案する。将来的な敵意の予測ではAUC 0.82、敵意強度の高さ対低さの区別ではAUC 0.91を達成し、有害なやり取りが悪化する前に事前のモデレーションが可能になる。
Online antisocial behavior, such as cyberbullying, harassment, and trolling, is a widespread problem that threatens free discussion and has negative physical and mental health consequences for victims and communities. While prior work has proposed automated methods to identify hostile comments in online discussions, these methods work retrospectively on comments that have already been posted, making it difficult to intervene before an interaction escalates. In this paper we instead consider the problem of forecasting future hostilities in online discussions, which we decompose into two tasks: (1) given an initial sequence of non-hostile comments in a discussion, predict whether some future comment will contain hostility; and (2) given the first hostile comment in a discussion, predict whether this will lead to an escalation of hostility in subsequent comments. Thus, we aim to forecast both the presence and intensity of hostile comments based on linguistic and social features from earlier comments. To evaluate our approach, we introduce a corpus of over 30K annotated Instagram comments from over 1,100 posts. Our approach is able to predict the appearance of a hostile comment on an Instagram post ten or more hours in the future with an AUC of .82 (task 1), and can furthermore distinguish between high and low levels of future hostility with an AUC of .91 (task 2).
研究の動機と目的
- 初期の非敵意的コメントに基づいて、Instagramのディスカッションにおける将来的なコメントが敵意を示すかどうかを予測すること。
- 最初の敵意あるコメントが現れた後、投稿が高水準の敵意に発展するかどうかを予測すること。
- 将来的な敵意を示す兆候となる言語的および社会的特徴を同定し、早期対応を支援すること。
- 予測モデルの評価を目的とした、3万件のアノテート済みInstagramコメントからなるデータセットを構築すること。
- モデレーションの優先順位付けやコメント制御の改善を支援するプラットフォームレベルのツールを提供すること。
提案手法
- モデルは、ユーザーを指向する不穏な表現、感情分析、語彙多様性といった言語的特徴を用いる。
- 参加者の人数や投稿者の過去の敵意コメント受信履歴といった社会的特徴も組み込む。
- 時間経過に伴う会話の動態を順序付きモデリングで処理し、早期の悪化兆候を検出する。
- 3万件以上のアノテート済みコメントを含む、1,100件のInstagram投稿から構成される洗練されたデータセットでモデルを学習する。
- 2つの独立したタスクをモデル化する:(1) 将来的な敵意の有無の予測、(2) その後の敵意強度の予測。
- 過去の会話の特徴を活用することで、敵意の歴史がある投稿の予測精度が向上する。
実験結果
リサーチクエスチョン
- RQ1コメントスレッドの初期段階における言語的および社会的特徴が、将来的に敵意あるコメントが現れるかどうかを予測できるか?
- RQ2敵意が高水準にまで悪化する会話と、低水準にとどまる会話をモデルが区別できるか?
- RQ3オンラインディスカッションにおける将来的な敵意を最も効果的に予測する具体的な言語的および社会的特徴は何か?
- RQ4モデルは10時間以上先の敵意を予測するのにどの程度有効か?
- RQ5過去の敵意やユーザー参加のパターンは、将来的な対立の悪化をどの程度正確に示唆するか?
主な発見
- モデルは、10時間以上先の敵意コメントの有無を予測する際、AUC 0.82を達成した。
- モデルは、将来的な敵意強度が高水準か低水準かを区別する際、AUC 0.91を達成した。
- 会話に参加する異なるユーザーの数は、将来的な敵意の悪化を強く予測する要因である。
- 投稿者の過去の敵意的コメント受信履歴は、将来的な敵意あるコメントの発生確率を著しく高める。
- 初期のコメントにおけるユーザー指向の不穏な表現は、将来的な敵意の兆候として強い指標である。
- データセット内の85%以上の敵意あるコメントは、初期のキーワード検索では検出されなかった。これは、単純な語彙リストだけでは不十分であり、文脈の重要性が示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。