QUICK REVIEW

[논문 리뷰] Talk, Listen, Connect: How Humans and AI Evaluate Empathy in Responses to Emotionally Charged Narratives

Mahnaz Roshanaei, Rezvaneh Rezapour|arXiv (Cornell University)|2024. 09. 23.

AI in Service Interactions인용 수 7

한 줄 요약

논문은 개인 서사를 사용하여 인간-인간 대 인간-AI 상호작용에서 공감 표현과 인식을 비교하고, GPT-4o와 페르소나 속성으로 미리 훈련된 정렬과 AI의 인간 공감과의 정합성을 평가한다.

ABSTRACT

Social interactions promote well-being, yet barriers like geographic distance, time limitations, and mental health conditions can limit face-to-face interactions. Emotionally responsive AI systems, such as chatbots, offer new opportunities for social and emotional support, but raise critical questions about how empathy is perceived and experienced in human-AI interactions. This study examines how empathy is evaluated in AI-generated versus human responses. Using personal narratives, we explored how persona attributes (e.g., gender, empathic traits, shared experiences) and story qualities affect empathy ratings. We compared responses from standard and fine-tuned AI models with human judgments. Results show that while humans are highly sensitive to emotional vividness and shared experience, AI-responses are less influenced by these cues, often lack nuance in empathic expression. These findings highlight challenges in designing emotionally intelligent systems that respond meaningfully across diverse users and contexts, and informs the design of ethically aware tools to support social connection and well-being.

연구 동기 및 목표

인간-인간과 인간-AI 상호작용 간의 공감의 경험과 표현이 어떻게 다른지 조사한다.
AI 페르소나 속성(성별, 공감적 관심, 관점 취하기, 경험의 유사성)이 공감 표현에 어떤 영향을 미치는지 살펴본다.
명령 미세 조정과 데이터 기반 페르소나 큐가 AI의 인간 공감 정합성을 향상시키는지 평가한다.
스토리텔라 상황과 인식된 유사성에서 인간과 AI 간의 공감을 이끄는 요인을 식별한다.
정신건강 관련 맥락에서 공감적 AI의 윤리적 및 실용적 함의를 논의한다.

제안 방법

126명의 학부생의 다섯 가지 중 최상위 3건과 최악의 3건의 삶의 사건 이야기를 사용하여 서사를 생성한다.
MTurk에서 공감, 정서적 및 인지적 차원, 느낀 공감의 이유에 대한 평가를 수집한다(n≈2,586 평가가 756개 이야기 전반에 걸쳐 있음).
동일한 이야기에 대해 기본 프롬프트와 페르소나 기반 프롬프트(성별, 공감적 관심, 관점 취하기, 경험 유사성)를 사용하여 GPT-4o 응답을 생성한다.
두 가지 모드로 GPT-4o를 미세 조정한다: (a) 이야기 전용으로 인간 공감 평가 포함; (b) 독자 인구통계 및 유사성 지표를 포함한 모든 속성.
평균, 표준편차, RMSE, t-검정, 와스스테인 거리로 공감을 평가하고, 다층 모형(lme4 in R)을 사용해 유발된 공감을 분석한다.
페르소나 프롬프트와 미세 조정이 인간과 AI 간의 공감 불일치를 줄이는지 분석한다.

실험 결과

연구 질문

RQ1RQ1: 인간-인간 및 인간-AI 상호작용에서 공감의 경험과 표현은 어떻게 다른가?
RQ2RQ2: 페르소나 속성(성별, 공감적 관심, 관점 취하기, 경험의 유사성)이 AI와 인간의 표현된 공감 및 느끼는 공감에 어떤 영향을 미치는가?
RQ3RQ3: AI 모델의 미세 조정이 인간과 AI의 공감 정합성을 어느 정도 향상시키는가?
RQ4RQ4: 무엇이 인간 대 AI 시스템에서 공감을 불러일으키는가?

주요 결과

GPT-4o는 인간보다 표준편차가 작고 공감을 더 높게 평가하며, AI의 평균 공감은 3.615이고 인간은 3.23이다(전반적으로).
AI는 인지적 공감에서 정서적 공감보다 더 큰 차이를 보이며, 이해의 깊이가 더 얕음을 나타낸다.
프롬프트의 페르소나 속성은 GPT-4o 기본값의 공감에 약간의 변화를 야기하지만, 특히 경험의 유사성을 포함하는 경우 미세 조정이 정합성을 현저히 향상시킨다.
모든 속성(스토리와 독자 속성)을 포함한 미세 조정은 집계 측정에서 인간 공감에 거의 근접한 차이(평균 차이가 거의 0에)로 나타나며 인지적 공감 성능을 향상시킨다.
경험의 유사성을 반영하도록 모델을 미세 조정하는 것이 인간과 AI 간의 공감 유발 정합성을 다른 페르소나 속성보다 더 향상시킨다.
사람은 정서 강도와 인식된 유사성과 같은 요인에 의존하는 반면, GPT-4o는 초기에는 일부 요인을 포착하지만 인간이 고려하는 즐거운 스토리텔링 상황과 같은 요인을 놓치는 경우가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.