QUICK REVIEW

[논문 리뷰] A Computational Framework for Behavioral Assessment of LLM Therapists

Yu Ying Chiu, Ashish Sharma|arXiv (Cornell University)|2024. 01. 01.

Mental Health via Writing인용 수 16

한 줄 요약

요약: Bolt는 LLM 치료사 행동을 체계적으로 특성화하고 고품질/저품질 인간 치료와 비교하며 프롬프트가 행동에 미치는 영향을 탐구하는 프레임워크이다. 시뮬레이션된 client-LLM 대화와 심리치료 기법 분류체계를 사용하여 행동을 식별한다.

ABSTRACT

The emergence of large language models (LLMs) like ChatGPT has increased interest in their use as therapists to address mental health challenges and the widespread lack of access to care. However, experts have emphasized the critical need for systematic evaluation of LLM-based mental health interventions to accurately assess their capabilities and limitations. Here, we propose BOLT, a proof-of-concept computational framework to systematically assess the conversational behavior of LLM therapists. We quantitatively measure LLM behavior across 13 psychotherapeutic approaches with in-context learning methods. Then, we compare the behavior of LLMs against high- and low-quality human therapy. Our analysis based on Motivational Interviewing therapy reveals that LLMs often resemble behaviors more commonly exhibited in low-quality therapy rather than high-quality therapy, such as offering a higher degree of problem-solving advice when clients share emotions. However, unlike low-quality therapy, LLMs reflect significantly more upon clients' needs and strengths. Our findings caution that LLM therapists still require further research for consistent, high-quality care.

연구 동기 및 목표

정신 건강 관리에 사용되는 LLM의 체계적인 행동 평가 필요성 동기 부여.
다양한 기법에 걸쳐 LLM 치료사 행동을 정량화하기 위한 계산 프레임워크(Bolt) 개발.
LLM 치료사 행동을 고품질 및 저품질 인간 치료와 비교.
프롬프트 및 모델 선택이 고품질 치료에 대한 행동 정렬에 어떤 영향을 미치는지 탐구.

제안 방법

Bolt를 소개하는 시스템 프롬프트 기반 프레임워크로서 공개 치료 데이터 세트를 사용하여 LLM과 시뮬레이션된 클라이언트 간의 치료 대화를 시뮬레이션한다.
확립된 심리치료 기법에서 도출된 13가지 치료사 행동과 6가지 클라이언트 행동으로 발화문 주석을 달다.
다중 레이블 및 이진 레이블 행동 분류 작업에서 GPT-3 및 GPT-4 계열 모델, 더불어 Llama2 변형을 평가한다.
심리치료 정의와 예제를 사용한 맥락 학습으로 행동을 식별하고 고품질/저품질 인간 치료 기준과 비교한다.
행동의 빈도, 시간적 순서, 모델 간 적응성 분석 및 행동에 대한 명시적 프롬프트 변 variation의 효과를 평가한다.

실험 결과

연구 질문

RQ1Bolt가 치료 대화에서 치료사와 클라이언트의 행동을 신뢰할 수 있게 식별할 수 있는가?
RQ2LLM 치료사 행동이 고품질/저품질 인간 치료 세션과 어떻게 비교되는가?
RQ3프롬프트 전략과 모델 선택이 LLM을 더 높은 품질의 치료 행동으로 이끄는가?
RQ4인간과 비교했을 때 LLM은 문제해결/해결 지향 행동 또는 반성적/정상화 행동에 더 기울어지는가?
RQ5고품질 치료와 유사하게 클라이언트의 필요와 강점을 LLM이 어느 정도 반영할 수 있는가?

주요 결과

프롬프트가 심리치료 정의와 예제로 치료사 행동에 대해 최고의 macro-F1을 산출한다(57.7% macro-F1).
프롬프트를 사용한 클라이언트 행동 분류(바이너리-레이블)가 최고의 macro-F1을 달성한다(76.7%).
LLM 치료사는 저품질 인간 치료와 유사하게 문제해결 행동이 더 높게 나타나지만, 또한 일반적인 저품질 치료보다 클라이언트의 감정과 경험을 더 반영한다.
GPT-4 및 GPT-3.5-turbo는 일반적으로 Llama2 계열보다 해법 중심 행동을 더 많이 보이는 경향이 있어 RLHF에 맞춘 경향이 이러한 패턴에 영향을 준다는 것을 시사한다.
시뮬레이션된 LLM 치료는 행동 빈도 측면에서 종종 저품질 인간 치료와 더 부합하는 경향을 보이며, 고품질 관리와의 현재 비이상적 정렬을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.