Skip to main content
QUICK REVIEW

[論文レビュー] "HOT" ChatGPT: The promise of ChatGPT in detecting and discriminating hateful, offensive, and toxic comments on social media

Lingyao Li, Lizhou Fan|arXiv (Cornell University)|Apr 20, 2023
Hate Speech and Cyberbullying Detection参考文献 64被引用数 20
ひとこと要約

本論文は、ChatGPT が憎悪的・攻撃的・有害(HOT)コメントを検出する能力を評価し、5つのプロンプトと4つの実験にわたるMTurkの注釈と比較し、約80%の精度を示し、プロンプト感度とHOT定義との整合性を強調する。

ABSTRACT

Harmful content is pervasive on social media, poisoning online communities and negatively impacting participation. A common approach to address this issue is to develop detection models that rely on human annotations. However, the tasks required to build such models expose annotators to harmful and offensive content and may require significant time and cost to complete. Generative AI models have the potential to understand and detect harmful content. To investigate this potential, we used ChatGPT and compared its performance with MTurker annotations for three frequently discussed concepts related to harmful content: Hateful, Offensive, and Toxic (HOT). We designed five prompts to interact with ChatGPT and conducted four experiments eliciting HOT classifications. Our results show that ChatGPT can achieve an accuracy of approximately 80% when compared to MTurker annotations. Specifically, the model displays a more consistent classification for non-HOT comments than HOT comments compared to human annotations. Our findings also suggest that ChatGPT classifications align with provided HOT definitions, but ChatGPT classifies "hateful" and "offensive" as subsets of "toxic." Moreover, the choice of prompts used to interact with ChatGPT impacts its performance. Based on these in-sights, our study provides several meaningful implications for employing ChatGPT to detect HOT content, particularly regarding the reliability and consistency of its performance, its understand-ing and reasoning of the HOT concept, and the impact of prompts on its performance. Overall, our study provides guidance about the potential of using generative AI models to moderate large volumes of user-generated content on social media.

研究の動機と目的

  • 有害な資料に曝露される人間の注釈者を必要とせず、大量のユーザー生成コンテンツをモデレーションするために生成AIの利用を促進する。
  • 標準的な HOT 定義に沿って、ChatGPT が HOT コンテンツを分類する能力を調査し、MTurk の注釈と比較する。
  • 異なるプロンプトが ChatGPT の性能と HOT の概念(憎悪、攻撃的、有害)との整合性にどのように影響するかを検討する。
  • HOT コンテンツ検出における ChatGPT の信頼性・一貫性・推論に関する指針を提供する。

提案手法

  • HOT分類のためにChatGPTと対話する5つのプロンプトを設計する。
  • ChatGPT から HOT分類を引き出す4つの実験を実施する。
  • 憎悪的・攻撃的・有害な内容に対するChatGPTの分類をMTurkの注釈と比較する。
  • HOTと非HOTコメントのChatGPT分類の一貫性を分析する。
  • ChatGPT が憎悪と攻撃を有害の部分集合として扱うか、プロンプトが結果にどう影響するかを検証する。

実験結果

リサーチクエスチョン

  • RQ1ChatGPT は MTurk の注釈と比較して、HOT コンテンツを正確に検出・識別できるか。
  • RQ2HOTと非HOTコメントに対する ChatGPT の HOT分類の一貫性はどれくらいか。
  • RQ3ChatGPT の分類は提供された HOT 定義と一致するか、そしてプロンプトはこの整合性にどのように影響するか。
  • RQ4ChatGPT は憎悪と攻撃を有害の部分集合として分類するか、モデレーションにとってこれは何を意味するか。
  • RQ5HOT検出における ChatGPT の性能に対するプロンプト選択の影響は何か。

主な発見

  • ChatGPT は MTurk の注釈と比較して約80%の精度を達成する。
  • 人間の注釈と比較して、非 HOT コメントに対する分類の方が HOT コメントより一貫している。
  • ChatGPT の分類は提供された HOT 定義と一致する。
  • ChatGPT は憎悪と攻撃を有害の部分集合として分類する傾向がある。
  • ChatGPT と対話するために使用するプロンプトの選択が性能に影響する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。