[論文レビュー] A Toolbox for Surfacing Health Equity Harms and Biases in Large Language Models
本論文は、健康格差を浮き彫りにする多要因の人間評価フレームワークと7つの EquityMedQA データセットを提示し、LLMsにおけるヘルスエクイティの害と偏見を浮き彫りにする。Med-PaLM 2 の大規模ケーススタディを通じて実証。
Large language models (LLMs) hold promise to serve complex health information needs but also have the potential to introduce harm and exacerbate health disparities. Reliably evaluating equity-related model failures is a critical step toward developing systems that promote health equity. We present resources and methodologies for surfacing biases with potential to precipitate equity-related harms in long-form, LLM-generated answers to medical questions and conduct a large-scale empirical case study with the Med-PaLM 2 LLM. Our contributions include a multifactorial framework for human assessment of LLM-generated answers for biases, and EquityMedQA, a collection of seven datasets enriched for adversarial queries. Both our human assessment framework and dataset design process are grounded in an iterative participatory approach and review of Med-PaLM 2 answers. Through our empirical study, we find that our approach surfaces biases that may be missed via narrower evaluation approaches. Our experience underscores the importance of using diverse assessment methodologies and involving raters of varying backgrounds and expertise. While our approach is not sufficient to holistically assess whether the deployment of an AI system promotes equitable health outcomes, we hope that it can be leveraged and built upon towards a shared goal of LLMs that promote accessible and equitable healthcare.
研究の動機と目的
- 参加型で専門家主導の設計を通じて、医療LLMの出力においてエクイティ関連の害を引き起こす可能性のあるバイアスの次元を定義する。
- 長文の医療回答におけるバイアスを構造的に評価するための3つのルーブリック(独立、ペアワイズ、反事実)を開発する。
- EquityMedQAを作成する:LLMsの健康格差バイアスを探る7つの対抗的データセット。
- 多様な評価者と豊富な定性的洞察を伴うMed-PaLMおよびMed-PaLM 2に関する大規模な実証研究を通じて適用性を実証する。
提案手法
- バイアスの次元を特定するため、Equity AI experts (EARR) および医師と共に反復的で参加型のルーブリック設計を行う。
- 6つのバイアス次元に合わせた3つの評価ルーブリック(独立、ペアワイズ、反事実)の設計。
- EquityMedQAの公開:人間が精選したクエリとLLM生成の対抗的クエリを組み合わせた7つのデータセット(全4,668例)。
- 臨床医、格差専門家、消費者からなる806人の評価者を対象に、Med-PaLMおよびMed-PaLM 2の出力にルーブリックを適用した大規模実証研究。
- 1万7000超の人間評価の定量的および定性的分析を通じて、評価者間信頼性とバイアス説明を評価。
実験結果
リサーチクエスチョン
- RQ1LLM生成の医療回答におけるどのバイアス次元が最もエクイティ関連の害に寄与するか?
- RQ2多因子・参加型ルーブリックは、従来の評価手法では見逃されるバイアスを明らかにできるか?
- RQ3対抗的でエクイティ重視のデータセットは、標準データセットでは見られないMed-PaLM 2の脆弱性を浮き彫りにするか?
- RQ4評価者の多様性は、LLM出力における健康格差バイアスの検出と解釈にどう影響するか?
主な発見
- 多様な評価者プール(806名)と複数の評価ルーブリックは、狭い評価では見逃されるバイアスを明らかにする。
- 7つの EquityMedQA データセットを複数ルーブリック評価と組み合わせることで、単一データセット手法では捉えきれないエクイティ関連の害を明らかにする。
- 公開の対抗的データと反事実設計は、文脈的に意味のあるバイアスと意味のない変化を区別するのに役立つ。
- 対抗的テストと参加型ルーブリック設計は、誤った描写、包摂性の欠如、構造的説明の欠落など、いくつかのバイアス次元の検出を改善する。
- 著者らは、バイアスの特定だけでは公正な健康アウトカムを保証しないと強調し、より広範で文脈依存の評価の必要性を指摘している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。