[논문 리뷰] Large Language Models in Mental Health Care: a Scoping Review
이 스코핑 리뷰는 멘탈 헬스케어에서 대형 언어 모델에 관한 34건의 연구를 분석하여 응용, 데이터셋, 학습 방법, 윤리 및 검증의 격차를 맵핑한다.
Objectieve:This review aims to deliver a comprehensive analysis of Large Language Models (LLMs) utilization in mental health care, evaluating their effectiveness, identifying challenges, and exploring their potential for future application. Materials and Methods: A systematic search was performed across multiple databases including PubMed, Web of Science, Google Scholar, arXiv, medRxiv, and PsyArXiv in November 2023. The review includes all types of original research, regardless of peer-review status, published or disseminated between October 1, 2019, and December 2, 2023. Studies were included without language restrictions if they employed LLMs developed after T5 and directly investigated research questions within mental health care settings. Results: Out of an initial 313 articles, 34 were selected based on their relevance to LLMs applications in mental health care and the rigor of their reported outcomes. The review identified various LLMs applications in mental health care, including diagnostics, therapy, and enhancing patient engagement. Key challenges highlighted were related to data availability and reliability, the nuanced handling of mental states, and effective evaluation methods. While LLMs showed promise in improving accuracy and accessibility, significant gaps in clinical applicability and ethical considerations were noted. Conclusion: LLMs hold substantial promise for enhancing mental health care. For their full potential to be realized, emphasis must be placed on developing robust datasets, development and evaluation frameworks, ethical guidelines, and interdisciplinary collaborations to address current limitations.
연구 동기 및 목표
- 데이터셋 유형, 모델, 학습 기법 및 이들이 멘탈 헬스 태스크에 적합한지 조사한다.
- LLMs가 가능하게 하는 멘탈 헬스 응용(진단, 치료, 참여, 선별, 교육)을 특성화한다.
- 검증 측정항목, 성능 지표, 평가 관행을 식별한다.
- 멘탈 헬스케어에 LLM을 배포하는 데 따른 윤리, 프라이버시, 안전성 및 규제 문제를 검토한다.
- 현재 도구와 임상 실용성 간의 격차를 강조하여 향후 연구를 안내한다.
제안 방법
- 스코핑 리뷰에 대한 PRISMA 2020 지침을 준수한다.
- 2023년 11월에 PubMed, Web of Science, Google Scholar, arXiv, medRxiv, PsyArXiv를 포괄적으로 검색했다.
- 처음에 313편의 문헌을 식별했고, 스크리닝 후 34편이 포함 기준을 충족했다.
- 제목/초록 스크리닝에서 GPT-4가 보조 reviewer로 작용했으며 Cohen의 Kappa ≈ 0.90로 인간 리뷰어와 대비했다.
- 출판물은 Dataset/Benchmark, Model Development/Fine-tuning, Application/Evaluation, Ethics/Safety로 분류했다.
- 프롬프트 기반 LLM과 미세조정된 LLM 간의 구분; 지시 미세조정(IFT) 및 프롬프트-튜닝 전략에 대한 강조.

실험 결과
연구 질문
- RQ1LLMs를 이용한 멘탈 헬스 태스크에 어떤 데이터셋과 모델이 사용되었는가?
- RQ2LLMs가 다루는 멘탈 헬스 응용은 무엇이며 어떻게 검증되었는가?
- RQ3멘탈 헬스케어에서 LLM에 대한 윤리, 프라이버시, 안전성 및 거버넌스 고려사항은 무엇인가?
- RQ4현재 LLM 도구와 임상 실용성 간의 격차는 무엇이며 이를 연결하기 위해 필요한 것은 무엇인가?
주요 결과
- LLMs는 환자와 임상의 모두를 위해 대화형 에이전트, 공감 대화, 선별 및 지원 도구에 적용된다.
- 대부분의 연구는 2022–2023년 출판물을 사용하며 프롬프트-튜닝과 응용 중심 작업이 급증했고, 데이터셋/벤치마크 논문은 드물다.
- 데이터셋은 주로 소셜 미디어에서 수집되며, 일부 임상의가 생성한 대화 및 합성 데이터가 있고, 라이선스는 대체로 비상업적이다.
- 평가는 F1, 정확도, 재현율, 정밀도와 같은 자동화 지표에 크게 의존하며 표준화된 임상 검증은 제한적이다.
- 윤리적, 프라이버시 및 안전 문제는 덜 다루어져 있어 강력한 데이터 거버넌스와 학제간 협업의 필요성을 시사한다.
- 전반적으로 LLM은 진단 및 환자 지원에 잠재력을 보이나 임상 실용성 및 윤리적 통합은 추가 개발이 필요하다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.