[論文レビュー] Talk, Listen, Connect: How Humans and AI Evaluate Empathy in Responses to Emotionally Charged Narratives
本論は、個人の物語、GPT-4o、そしてペルソナ属性を用いたファインチューニングを通じて、人間同士の対話と人間-AI対話における共感の表現と認識を比較し、人間の共感への整合性を評価する。
Social interactions promote well-being, yet barriers like geographic distance, time limitations, and mental health conditions can limit face-to-face interactions. Emotionally responsive AI systems, such as chatbots, offer new opportunities for social and emotional support, but raise critical questions about how empathy is perceived and experienced in human-AI interactions. This study examines how empathy is evaluated in AI-generated versus human responses. Using personal narratives, we explored how persona attributes (e.g., gender, empathic traits, shared experiences) and story qualities affect empathy ratings. We compared responses from standard and fine-tuned AI models with human judgments. Results show that while humans are highly sensitive to emotional vividness and shared experience, AI-responses are less influenced by these cues, often lack nuance in empathic expression. These findings highlight challenges in designing emotionally intelligent systems that respond meaningfully across diverse users and contexts, and informs the design of ethically aware tools to support social connection and well-being.
研究の動機と目的
- 人間同士と人間-AIの対話において、共感の経験と表現がどのように異なるかを探索する。
- AIのペルソナ属性(性別、共感的配慮、視点取得、経験の類似性)が共感の表現にどのように影響するかを検討する。
- 指示のファインチューニングとデータ駆動のペルソナ手掛かりが、AIの人間の共感への整合性を改善するかを評価する。
- ストーリーテラーの状況や認知される類似性において、人間とAIの共感を引き起こす要因を特定する。
- メンタルヘルス関連の文脈における共感的AIの倫理的・実践的な含意について議論する。
提案手法
- 126人の大学生のうち最良3つと最悪3つの人生経験のストーリーを用いて物語を生成する。
- 共感、情動的・認知的次元、および感じた共感の理由に関するMTurk評価を収集する(n≈2,586件の評価、756件のストーリーにまたがる)。
- 同じストーリーに対して、ベースプロンプトとペルソナベースのプロンプト(性別、共感的配慮、視点取得、経験の類似性)を用いてGPT-4oの応答を生成する。
- (a) 物語のみと人間の共感評価を用いたファインチューニング、(b) 読者の属性と類似性指標を含む全属性でのファインチューニング、という二つのモードでGPT-4oをファインチューニングする。
- 平均、標準偏差、RMSE、t検定、ワッサースタイン距離を用いて共感を評価し、誘発された共感を多層モデル(Rのlme4)で分析する。
- ペルソナプロンプトとファインチューニングが、人間とAIの共感の乖離を減らすかを分析する。
実験結果
リサーチクエスチョン
- RQ1RQ1:人間同士と人間-AIの対話において、共感の経験と表現はどのように異なるか?
- RQ2RQ2:ペルソナ属性(性別、共感的配慮、視点取得、経験の類似性)は、AIと人間の表出された共感と感じる共感にどのような影響を与えるか?
- RQ3RQ3:AIモデルのファインチューニングは人間とAIの共感の整合性をどの程度改善するか?
- RQ4RQ4:人間とAIシステムで共感を喚起する要因は何か?
主な発見
- GPT-4oは人間より変動が小さく、共感を高く評価する。AIの平均共感は3.615、 humansは3.23(全体)である。
- AIは認知的共感において情動的共感より大きな乖離を示し、理解の深さが浅いことを示唆している。
- プロンプトのペルソナ属性はGPT-4oベースで共感にわずかな変化をもたらすだけだが、経験の類似性を含むと特に全属性を含むファインチューニングは整合性を著しく改善する。
- 全属性(物語と読者属性を含む)でのファインチューニングは、総合指標で人間の共感とほぼ同等(平均差はほぼゼロ)となり、認知的共感のパフォーマンスを改善する。
- 経験の類似性を反映するようモデルをファインチューニングすることは、他のペルソナ属性よりも人間とAIの共感喚起の整合性を高める。
- humansは感情の強さや認知される類似性などの要因に依存する。GPT-4oは初期段階でいくつかの要因を捉えるが、人間が考慮する(例:心地よい語り手の状況)など他の要因を見逃している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。