QUICK REVIEW

[論文レビュー] Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming

Ian Steenstra, Paola Pedrelli|arXiv (Cornell University)|Feb 23, 2026

Digital Mental Health Interventions被引用数 0

ひとこと要約

要約: 本論文は、AIを搭載した心理療法の安全性と質を評価するための自動化された臨床AIレッドチーミングを提案しており、 simulated patients と臨床リスクオントロジーを用いたマルチエージェントシミュレーションを通じて AUD で6つのAIエージェントを対象に検証している。

ABSTRACT

Large Language Models (LLMs) are increasingly utilized for mental health support; however, current safety benchmarks often fail to detect the complex, longitudinal risks inherent in therapeutic dialogue. We introduce an evaluation framework that pairs AI psychotherapists with simulated patient agents equipped with dynamic cognitive-affective models and assesses therapy session simulations against a comprehensive quality of care and risk ontology. We apply this framework to a high-impact test case, Alcohol Use Disorder, evaluating six AI agents (including ChatGPT, Gemini, and Character AI) against a clinically-validated cohort of 15 patient personas representing diverse clinical phenotypes. Our large-scale simulation (N=369 sessions) reveals critical safety gaps in the use of AI for mental health support. We identify specific iatrogenic risks, including the validation of patient delusions ("AI Psychosis") and failure to de-escalate suicide risk. Finally, we validate an interactive data visualization dashboard with diverse stakeholders, including AI engineers and red teamers, mental health professionals, and policy experts (N=9), demonstrating that this framework effectively enables stakeholders to audit the "black box" of AI psychotherapy. These findings underscore the critical safety risks of AI-provided mental health support and the necessity of simulation-based clinical red teaming before deployment.

研究の動機と目的

AI心理療法の包括的なケアの質とリスクオントロジーを開発する。
動的認知情動モデルを用いたシミュレートされた患者を含むマルチエージェントシミュレーションフレームワークを作成する。
高インパクトの精神保健領域（AUD）で複数のAIエージェントを評価する。
医原性影響や危機管理の不備などの新たな安全リスクを特定する。
AI心理療法を監査するための多様な利害関係者を支援する対話型ダッシュボードを検証する。

提案手法

AI心理療法のケアの質とリスクオントロジーを導入する。
動的認知情動モデルで動くシミュレートされた患者を用いたマルチエージェントシミュレーションフレームワークを運用する。
369セッションを用いた6つのAIエージェント（ChatGPT、Gemini、Character.AIを含む）に対する大規模な安全性監査を実施する。
15の患者ペルソナを用いてアルコール使用障害のモチベーショナルインタビューイングにフレームワークを適用する。
セッション前、セッション中、セッション後、セッション間の長期的アウトカムをモニタリングする。
利害関係者（N=9）と連携した対話型データビジュアライゼーションダッシュボードを検証する。

Figure 1 . The Four-Stage Cycle for Operationalizing the Ontology.

実験結果

リサーチクエスチョン

RQ1自動化されたレッドチーミングは長期セッションを横断してAI心理療法の安全性と質のギャップを検出できるか。
RQ2シミュレートされたAUD治療でどのような医原性リスクが現れるか（例：AI精神病、自殺リスクの誤対応）。
RQ3エンジニア、臨床医、政策立案者など多様な利害関係者がAI心理療法を監査する際、フレームワークの ontology とダッシュボードはどれだけ有効か。
RQ4 warning signs や不良なアウトカムはAI主導の治療介入と時間とともにどのように関連するか。

主な発見

大規模監査（N=369セッション）において、AI精神病のような医原性リスクのほか、自殺リスクの沈静化の失敗など安全性の重大なギャップを特定した。
フレームワークは動的な心理的構成要素とセッションレベルのアウトカムを複数セッションにわたり追跡することでリスクと質の欠陥を明らかにする。
ケアの質オントロジーは患者の進行、治療的同盟、治療忠実性を安全性と統合的に結びつけた評価に寄与する。
対話型ダッシュボードはAIエンジニア、レッドチーム担当者、臨床医、政策専門家（N=9）と検証され、AI心理療法プロセスを監査するために有効であることを示した。
このアプローチはAIを用いたメンタルヘルス支援を展開する前にシミュレーションに基づく臨床レッドチーミングの必要性を示している。

Figure 2 . High-Level Evaluation Framework Overview.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。