[논문 리뷰] Are Large Language Models More Empathetic than Humans?
이 논문은 주-대상 간 연구를 통해 4개의 최첨단 LLM(GPT-4, LLaMA-2-70B-Chat, Gemini-1.0-Pro, Mixtral-8x7B-Instruct)의 공감 반응을 인간 기준선과 비교했으며, 2,000 개의 프롬프트를 1,000명의 참가자가 평가한 결과, LLM이 일반적으로 인간보다 공감 점수에서 우수한 것으로 나타났다.
With the emergence of large language models (LLMs), investigating if they can surpass humans in areas such as emotion recognition and empathetic responding has become a focal point of research. This paper presents a comprehensive study exploring the empathetic responding capabilities of four state-of-the-art LLMs: GPT-4, LLaMA-2-70B-Chat, Gemini-1.0-Pro, and Mixtral-8x7B-Instruct in comparison to a human baseline. We engaged 1,000 participants in a between-subjects user study, assessing the empathetic quality of responses generated by humans and the four LLMs to 2,000 emotional dialogue prompts meticulously selected to cover a broad spectrum of 32 distinct positive and negative emotions. Our findings reveal a statistically significant superiority of the empathetic responding capability of LLMs over humans. GPT-4 emerged as the most empathetic, marking approximately 31% increase in responses rated as "Good" compared to the human benchmark. It was followed by LLaMA-2, Mixtral-8x7B, and Gemini-Pro, which showed increases of approximately 24%, 21%, and 10% in "Good" ratings, respectively. We further analyzed the response ratings at a finer granularity and discovered that some LLMs are significantly better at responding to specific emotions compared to others. The suggested evaluation framework offers a scalable and adaptable approach for assessing the empathy of new LLMs, avoiding the need to replicate this study's findings in future research.
연구 동기 및 목표
- LLMs가 광범위한 감정에 걸쳐 인간보다 더 높은 공감 반응을 보일 수 있는지 동기 부여하고 정량화한다.
- 이전 연구를 재실행하지 않고 LLM 공감을 평가하기 위한 확장 가능하고 적응 가능한 평가 프레임워크를 개발한다.
- EmpatheticDialogues 프롬프트를 사용해 인간 기준선을 만들고 이를 다수의 현대 LLM과 비교한다.
- 향후 벤치마킹을 위한 프롬프트, 응답, 등급을 공개해 재현성을 촉진한다.
제안 방법
- 다섯 그룹(인간, GPT-4, LLaMA-2-70B-Chat, Gemini-1.0-Pro, Mixtral-8x7B-Instruct)을 사용하는 주-대상 간 설계.
- EmpatheticDialogues 데이터셋의 32개 감정에 걸친 2,000개의 대화 프롬프트를 평가 코퍼스로 사용.
- 인지적, 정의적, 연민적 공감을 다루는 공감 정의 지침으로 LLM에 프롬트를 제시.
- 그룹당 200명, 총 1,000명 참가자로 3점 척도 Bad/Okay/Good로 평가 수집.
- 집단 간 Good/Okay/Bad 비율을 비교하기 위한 독립성 카이제곱 검정으로 통계 분석.
실험 결과
연구 질문
- RQ1LLMs가 광범위한 감정에서 인간보다 더 높은 공감 반응 품질을 보이는가?
- RQ2다양한 감정에 대해 LLM 간 공감 성능에 차이가 있는가?
- RQ3주-대상 간 설계가 이전의 내-대상 연구에 비해 진화하는 LLM을 위해 강건하고 확장 가능한 평가를 제공하는가?
주요 결과
- GPT-4는 인간보다 약 31% 더 많은 Good 평가를 얻어 가장 큰 개선을 달성했다(통계적으로 유의함).
- LLaMA-2, Mixtral-8x7B, Gemini-Pro는 각각 약 24%, 21%, 10%의 Good 평가 향상을 보였다.
- 모든 네 가지 LLM은 긍정적 감정과 부정적 감정 모두에 대해 인간보다 Good 평가에서 우수했고, GPT-4가 대부분의 범주에서 선두를 차지했다.
- 감정별로 유의미한 차이가 관찰되었다; 일부 LLM은 특정 감정에 대해 뛰어나다(예: Impressed, Surprised, Grateful, Proud 등에서 GPT-4).
- 긍정적 감정은 일반적으로 GPT-4, LLaMA-2, Mixtral-8x7B의 큰 이득을 보였고; Gemini-Pro는 긍정 감정에서 뚜렷한 이득은 보이지 않지만 일부 부정적 감정에서 더 잘했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.