[論文レビュー] MedSafetyBench: Evaluating and Improving the Medical Safety of Large Language Models
この論文は医療の安全性と整合性を定義し、有害な医療プロンプトデータセット(med-harm)を構築し、一般知識系と医療系LLMを安全性で評価し、ファインチューニングが安全性を向上させることを示し、医療LLMの安全性を確保するためのより広い緩和戦略を論じる。
As large language models (LLMs) develop increasingly sophisticated capabilities and find applications in medical settings, it becomes important to assess their medical safety due to their far-reaching implications for personal and public health, patient safety, and human rights. However, there is little to no understanding of the notion of medical safety in the context of LLMs, let alone how to evaluate and improve it. To address this gap, we first define the notion of medical safety in LLMs based on the Principles of Medical Ethics set forth by the American Medical Association. We then leverage this understanding to introduce MedSafetyBench, the first benchmark dataset designed to measure the medical safety of LLMs. We demonstrate the utility of MedSafetyBench by using it to evaluate and improve the medical safety of LLMs. Our results show that publicly-available medical LLMs do not meet standards of medical safety and that fine-tuning them using MedSafetyBench improves their medical safety while preserving their medical performance. By introducing this new benchmark dataset, our work enables a systematic study of the state of medical safety in LLMs and motivates future work in this area, paving the way to mitigate the safety risks of LLMs in medicine. The benchmark dataset and code are available at https://github.com/AI4LIFE-GROUP/med-safety-bench.
研究の動機と目的
- AMA Principles of Medical Ethicsを基準として、医療AIの医療安全性と整合性を定義する。
- AMA principlesに基づいて有害な医療プロンプトをカテゴリ分けしたmed-harmデータセットを作成する。
- 有害なプロンプトのベンチマークを用いて、一般知識型および医療系LLMの安全性と整合性を評価する。
- 安全性を向上させるためのファインチューニングによる緩和戦略を実証する。
- 安全で整合した医療LLMを開発するためのより広いアプローチについて論じる。
提案手法
- AMA Principles of Medical Ethicsを指針標準として、医療における安全性と整合性を定義する。
- 9つの AMA principles にわたる1,742の有害な医療プロンプトのデータセット med-harmを、GPT-4と jailbroken Llama-2-7b-chatを用いて生成する。
- 一般知識と医療系LLMを、3つのデータセット(hex-phiは一般的害、med-harm-llama2と med-harm-gpt4は医療害)で評価する。
- GPT-4を用いて、有害なプロンプトに対するLLMの応答を、使用ポリシー(一般安全性のMetaポリシー、医療安全のAMA principles)に guided される1–5の意欲スケールで採点する。
- 整合された一般 LLMs と非整合の一般 LLMs および various medical LLMs を比較して、安全性のギャップと潜在的改善を評価する。
- 安全性デモンストレーションによるファインチューニングを緩和戦略として検討する(結果は追って報告予定)。
実験結果
リサーチクエスチョン
- RQ1一般知識型および医療系LLMは、有害な医療および一般プロンプトを与えられたとき、安全性と整合性の面でどう機能するか?
- RQ2現在の整合された一般知識LLMは医療においてより安全な行動を達成しているか、医療系LLMはそれとどう比較されるか?
- RQ3安全性デモンストレーションによるファインチューニングは医療LLMsの一般的および医療の安全性を改善できるか?
- RQ4安全性を確保し整合した医療LLMsを開発するための現実的な緩和戦略とより広いアプローチは何か?
主な発見
- Aligned general-knowledge LLMs(例:Llama-2-chat、GPT-4、GPT-3.5)は、データセット全体で非整合モデルより有害性スコアが低いことを示すが、それでも時折有害なプロンプトを出力する。
- 医療系LLMの中で、Meditron-70bは一貫して低い有害性を示す一方、他の医療系LLMはより高いスコアを示す傾向があり、有害出力のリスクが高いことを示している。
- 医療LLMは、整合された一般知識ベースラインと比較した場合、医療プロンプトで一般知識LLMよりも有害性が高いことが一般的に見られる。
- 一般対医療: 非整合モデルは general harm (hex-phi) および medical harm でパフォーマンスが悪い一方、整合された一般知識LLMはデータセット全体でより安全な行動を維持する。
- 専門用語を含む医療プロンプトは、有害性の認識を異なる引き出すことがあり、専門用語が存在するときに一部のプロンプトがより有害になる。
- 安全性デモンストレーションによるファインチューニングは有望な緩和戦略として示されている(結果は追って報告予定)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。