Skip to main content
QUICK REVIEW

[論文レビュー] Is ChatGPT More Empathetic than Humans?

Anuradha Welivita, Pearl Pu|arXiv (Cornell University)|Feb 22, 2024
Artificial Intelligence in Healthcare and Education被引用数 14
ひとこと要約

本研究は、600人の参加者を対象とし、被験者間デザインを用いてGPT-4生成の共感的応答と人間の応答を比較し、GPT-4がしばしばより共感的と評価されることを、特に共感定義型プロンプトを用いた場合に見いだした。

ABSTRACT

This paper investigates the empathetic responding capabilities of ChatGPT, particularly its latest iteration, GPT-4, in comparison to human-generated responses to a wide range of emotional scenarios, both positive and negative. We employ a rigorous evaluation methodology, involving a between-groups study with 600 participants, to evaluate the level of empathy in responses generated by humans and ChatGPT. ChatGPT is prompted in two distinct ways: a standard approach and one explicitly detailing empathy's cognitive, affective, and compassionate counterparts. Our findings indicate that the average empathy rating of responses generated by ChatGPT exceeds those crafted by humans by approximately 10%. Additionally, instructing ChatGPT to incorporate a clear understanding of empathy in its responses makes the responses align approximately 5 times more closely with the expectations of individuals possessing a high degree of empathy, compared to human responses. The proposed evaluation framework serves as a scalable and adaptable framework to assess the empathetic capabilities of newer and updated versions of large language models, eliminating the need to replicate the current study's results in future research.

研究の動機と目的

  • GPT-4(GPT-4)の応答が、日常的な会話スタイルの対話において人間の応答と比較してどれだけ共感的であるかを評価する。
  • GPT-4のプロンプティング戦略を2つ評価する: vanilla (generic) と empathy-defined (認知的、情動的、そして思いやりの要素) 。
  • 将来のLLMの共感評価に適したスケーラブルな評価フレームワークを検証し、単一のモデルバージョンを超えて発見を一般化する。

提案手法

  • EmpatheticDialoguesデータセットを使用し、2,000の対話を32の感情に分布させる。
  • 人間、GPT-4 (vanilla)、GPT-4 (empathy-defined) の応答を評価する600人のクラウドワーカーを対象に被験者間デザインの研究を実施する。
  • GPT-4を2つの指示スタイルでプロンプトする: vanilla と empathy-defined、各対話の最初のターンに対する応答を生成。
  • 共感を3段階で評価する(Bad, Okay, Good)し、1要因ANOVAとt検定で分析する。
  • TEQ(Toronto Empathy Questionnaire)を用いて評価者の共感傾向を測定し、評価と相互作用を分析する。

実験結果

リサーチクエスチョン

  • RQ1多様な感情シナリオで、GPT-4は人間よりも共感的な応答を生成しますか?
  • RQ2プロンプトで共感を明示的に定義すると、GPT-4の評価者適合度は高い共感を示す評価者に対して改善しますか?
  • RQ3ポジティブな感情コンテキストとネガティブな感情コンテキストで、共感度の評価はどのように異なりますか?
  • RQ4評価者の固有の共感性(TEQ)と、GPT-4と人間の応答を評価する際の評価の仕方との関係はありますか?

主な発見

  • GPT-4 (vanilla) および GPT-4 (empathy-defined) は、すべての感情において人間よりも高い平均共感評価を受け取る。
  • GPT-4 (empathy-defined) は、すべての感情とネガティブ感情で最高の平均評価を生み出し、人間に比べてそれぞれ約11.21%および9.61%の増加となる。
  • GPT-4 (vanilla) は、ポジティブな感情に対して人間より平均共感評価が13.14%高い。
  • Differences between GPT-4 (empathy-defined) and GPT-4 (vanilla) are not statistically significant overall (p > 0.05).
  • Raters with higher empathy propensity tend to rate GPT-4 (empathy-defined) more highly, with a stronger slope than for humans or GPT-4 (vanilla).
  • Qualitative examples indicate GPT-4 can adopt non-directive, more empathetic communication when prompted with empathy-defined guidance.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。