[논문 리뷰] Beyond Simulations: What 20,000 Real Conversations Reveal About Mental Health AI Safety
이 논문은 일반 목적 LLM과 전용 정신건강 AI 모두에 대한 안전 벤치마크를 재현 테스트한 뒤, 20,000건이 넘는 실제 대들을 생태학적 감사로 평가하여 실제 안전 결과가 테스트 세트 결과보다 종종 더 좋다는 것을 발견하고, 배포-관련 안전 보증의 필요성을 강조한다.
Large language models (LLMs) are increasingly used for mental health support, yet existing safety evaluations rely primarily on small, simulation-based test sets that have an unknown relationship to the linguistic distribution of real usage. In this study, we present replications of four published safety test sets targeting suicide risk assessment, harmful content generation, refusal robustness, and adversarial jailbreaks for a leading frontier generic AI model alongside an AI purpose built for mental health support. We then propose and conduct an ecological audit on over 20,000 real-world user conversations with the purpose-built AI designed with layered suicide and non-suicidal self-injury (NSSI) safeguards to compare test set performance to real world performance. While the purpose-built AI was significantly less likely than general-purpose LLMs to produce enabling or harmful content across suicide/NSSI (.4-11.27% vs 29.0-54.4%), eating disorder (8.4% vs 54.0%), and substance use (9.9% vs 45.0%) benchmark prompts, test set failure rates for suicide/NSSI were far higher than in real-world deployment. Clinician review of flagged conversations from the ecological audit identified zero cases of suicide risk that failed to receive crisis resources. Across all 20,000 conversations, three mentions of NSSI risk (.015%) did not trigger a crisis intervention; among sessions flagged by the LLM judge, this corresponds to an end-to-end system false negative rate of .38%, providing a lower bound on real-world safety failures. These findings support a shift toward continuous, deployment-relevant safety assurance for AI mental-health systems rather than limited set benchmark certification.
연구 동기 및 목표
- 자살 위험, 유해 콘텐츠, 거절 강건성, 적대적 자이브락에 대한 기존 안전 테스트 세트가 정신건강 AI의 실제 사용에 얼마나 부합하는지 평가한다.
- 다수의 안전 차원에서 일반 목적 LLM과 전용 정신건강 지원 AI의 성능을 비교한다.
- 실제 대화에서 유해/허용 콘텐츠를 가능하게 한 사례의 실제 발생률과 위기 개입의 효과를 실제로 측정한다.
- 벤치마크 테스트 실패와 실제 안전 결과 간의 차이를 확인하여 안전 보증 관행을 알린다.
제안 방법
- 선도적 프런티어 일반 AI 모델과 전용 정신건강 AI에 대해 네 가지 게시된 안전 테스트 세트를 재현한다.
- 계층적 자살 예방 및 비자살성 자해(NSSI) 차단책임을 갖춘 전용 AI를 이용한 20,000건이 넘는 실제 사용자 대화에 대한 생태학적 감사를 수행한다.
- 자살/NSSI, 섭식장애, 물질 사용 프롬프트에서 테스트 세트 실패율을 실제 배치 결과와 비교한다.
- 임상의가 표시된 대화를 검토하여 위기 개입의 효과와 엔드-투-엔드 안전을 평가한다.
- 실제 안전 실패의 하한으로 엔드-투-엔드 시스템 거짓 부정률을 계산한다.
실험 결과
연구 질문
- RQ1안전 테스트 세트가 정신건강 AI 시스템에 적용될 때 실제 위험을 과대평가하는가, 과소평가하는가?
- RQ2전용 정신건강 AI가 안전 벤치마크에서 일반 목적 LLM과 비교하여 어떤 성능을 보이는가?
- RQ3정신건강 AI와의 대화에서 유해 콘텐츠를 가능하게 하거나 촉발하는 실제 비율은 얼마이며, 위기 자원의 성공적인 촉발 빈도는 얼마나 되는가?
- RQ4실제 사용에서 임상의 리뷰가 위기-자원 배치와 안전 격차에 대해 무엇을 밝히는가?
주요 결과
- 전용 정신건강 AI는 일반 목적 LLM에 비해 자살/NSSI, 섭식장애, 물질 사용 프롬프트에서 유해하거나 허용 가능한 콘텐츠를 생성할 가능성이 현저히 낮았다(0.4-11.27% 대 29.0-54.4%, 8.4% 대 54.0%, 9.9% 대 45.0%).
- 자살/NSSI에 대한 테스트 세트 실패율은 실제 배치보다 훨씬 높았다.
- 임상의 리뷰는 위기 자원을 받지 못한 표시된 대화에서 자살 위험 사례가 제로로 확인되었다.
- 20,000건의 대화에서 NSSI 위험 언급은 3건(0.015%)으로 위기 개입을 촉발하지 못했고; LLM 판정에 의해 표시된 세션 중에서 이것은 엔드-투-엔드 시스템 거짓 음성 비율 0.38%에 해당한다.
- 본 연구의 결과는 벤치마크 인증에만 의존하기보다 지속적이고 배포 관련 평가로 안전 보증을 전환해야 한다는 것을 뒷받침한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.