[論文レビュー] On the Concept of Violence: A Comparative Study of Human and AI Judgments
この論文は、22の倫理的に分裂するシナリオを横断して人間の判断と指示調整済みLLMの出力を体系的に比較し、AIが暴力という曖昧な概念をどのように運用するかを理解する。
Background: What counts as violence is neither self-evident nor universally agreed upon. While physical aggression is prototypical, contemporary societies increasingly debate whether exclusion, humiliation, online harassment or symbolic acts should be classified within the same moral category. At the same time, Large Language Models (LLMs) are being consulted in everyday contexts to interpret and label complex social behaviors. Whether these systems reproduce, reshape or simplify human conceptions of violence remains an open question. Methods: Here we present a systematic comparison between human judgements and LLM classifications across 22 scenarios carefully designed to be morally dividing, spanning from physical and verbally aggressive behavior, relational dynamics, marginalization, symbolic actions and verbal expressions. Human responses were compared with outputs from multiple instruction-tuned models of varying sizes and architectures. We conducted global, sentence-level and thematic-domain analyses, and examined variability across models to assess patterns of convergence and divergence. Findings: This study treats violence as a strategically chosen proxy through which broader belief formation dynamics can be observed. Violence is not the focus of the study, but it serves as a tool to investigate broader analysis. It enables a structured investigation of how LLMs operationalize ambiguous moral constructs, negotiate conceptual boundaries, and transform plural human interpretations into singular outputs. More broadly, the findings contribute to ongoing debates about the epistemic role of conversational AI in shaping everyday interpretations of harm, responsibility and social norms, highlighting the importance of transparency and critical engagement as these systems increasingly mediate public reasoning.
研究の動機と目的
- 身体的、言語的、関係的、象徴的領域を横断して暴力の定義と解釈を探る。
- LLMsが人間の暴力概念を再現・再形成・単純化するかを評価する。
- 複数モデルを横断した人間判断とAI分類の収束と乖離を定量化する。
- AIを用いた推論における認識的役割、透明性、社会規範の媒介に関する示唆を探る。
提案手法
- 身体的、言語的、関係的、排除、象徴的行為、言語表現を含む22の倫理的に分裂するシナリオを設計する。
- これらのシナリオに対する暴力の人間判断を収集する。
- 複数のサイズとアーキテクチャをもつ指示調整済みLLMの出力と人間判断を比較する。
- 収束と乖離を評価するためにグローバル、文レベル、主題領域別の分析を実施する。
- 分類のパターンを特定するためにモデル間の変動性を分析する。
- 暴力を、より広い信念形成ダイナミクスと害概念のAI媒介を研究する代理指標として解釈する。
実験結果
リサーチクエスチョン
- RQ1人間とAIシステムは、暴力という概念の下でさまざまな行動をどのように分類するのか。
- RQ2指示調整済みLLMは、さまざまなシナリオを横断して人間の暴力概念を再現・再形成・単純化するか。
- RQ3モデルとシナリオを横断して、人間とAIの分類間にどのような収束または乖離のパターンが現れるか。
- RQ4透明性と責任あるAIの暴力解釈・社会規範の理解に関する影響は何か。
主な発見
- AIの分類は、暴力を代理とした信念形成ダイナミクスをより広く反映する。
- LLMsは複数の人間解釈から単一の出力へ収束する可能性があり、害と責任の日常的解釈を形作る可能性がある。
- 対話型AIが害と社会規範についての公共の推論を仲介できることを示す。
- 複雑な社会的行動を解釈する際のAIシステムにおける透明性と批判的関与の必要性を強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。