[論文レビュー] Fine-Tune, Don't Prompt, Your Language Model to Identify Biased Language in Clinical Notes
論文は臨床ノートにおける偏見言語の検出における prompting( prompting )と fine-tuning の比較を行い、語彙プリミングを用いた分野特異的なファインチューニングが最も性能が良く、他領域への一般化は限定的であると述べる。
Clinical documentation can contain emotionally charged language with stigmatizing or privileging valences. We present a framework for detecting and classifying such language as stigmatizing, privileging, or neutral. We constructed a curated lexicon of biased terms scored for emotional valence. We then used lexicon-based matching to extract text chunks from OB-GYN delivery notes (Mount Sinai Hospital, NY) and MIMIC-IV discharge summaries across multiple specialties. Three clinicians annotated all chunks, enabling characterization of valence patterns across specialties and healthcare systems. We benchmarked multiple classification strategies (zero-shot prompting, in-context learning, and supervised fine-tuning) across encoder-only models (GatorTron) and generative large language models (Llama). Fine-tuning with lexically primed inputs consistently outperformed prompting approaches. GatorTron achieved an F1 score of 0.96 on the OB-GYN test set, outperforming larger generative models while requiring minimal prompt engineering and fewer computational resources. External validation on MIMIC-IV revealed limited cross-domain generalizability (F1 < 0.70, 44% drop). Training on the broader MIMIC-IV dataset improved generalizability when testing on OB-GYN (F1 = 0.71, 11% drop), but at the cost of reduced precision. Our findings demonstrate that fine-tuning outperforms prompting for emotional valence classification and that models must be adapted to specific medical specialties to achieve clinically appropriate performance. The same terms can carry different emotional valences across specialties: words with clinical meaning in one context may be stigmatizing in another. For bias detection, where misclassification risks undermining clinician trust or perpetuating patient harm, specialty-specific fine-tuning is essential to capture these semantic shifts. * Equal contribution.
研究の動機と目的
- 臨床テキストにおける専門分野間での偏見語の感情価を特徴づける。
- エンコーダーベースのPLMsと生成系LLMsを、異なるチューニング戦略でバイアス検出のために評価する。
- 医療システムと専門分野を横断したモデルの一般化を評価する。
- 語彙プライミングおよびドメイン適応が分類性能を改善するかを判断する。
提案手法
- 蔑称・優位語の語彙リストを作成し、各語に感情価を割り当つける。
- OB-GYN ノートと MIMIC-IV 要約から語彙語 term 周辺のアンカー化されたテキスト塊を抽出する。
- 3名の臨床医が塊を蔑視的、特権付与的、中立として注釈付けし、文脈に基づく感情価を評価する。
- ゼロショット・ prompting・ fine-tuning 設定におけるエンコーダのみの PLMs 対 Generative LLMs のモデルファミリーを比較する。
- 語彙プライミングとドメイン固有の適応を用いて分類精度を向上させる。
- 主指標として macro-F1 を用い、テスト/外部セットの不確実性をブートストラップで推定する。

実験結果
リサーチクエスチョン
- RQ1臨床ノートの偏見言語を分類する際に fine-tuning は prompting より優れているか。
- RQ2語彙プライミングは感情価分類におけるモデルの性能にどのように影響するか。
- RQ3モデルの性能は専門分野(OB-GYN 対他)や医療システム(Mount Sinai 対 MIMIC-IV)でどのように変わるか。
- RQ4一つの専門分野/システムから別の専門分野/システムへ転移した際の一般化ギャップはどれくらいか。
- RQ5専門分野特異的なファインチューニングは、臨床ノートの偏見言語を信頼性高く検出するために必要か。
主な発見
- 語彙的にプライミングされた入力を用いたファインチューニングは、モデル間で一貫して prompting アプローチを上回った。
- 語彙プライミングとプロンプトベースのファインチューニングを組み合わせた GatorTron(臨床エンコーダ)により、OB-GYN データでの性能が高く(F1 0.96近辺)達成。
- LLMs の指示/チューニングを用いたゼロショット prompting は改善したが、ファインチューニング済みエンコーダーモデルには及ばなかった。
- OB-GYN データで訓練した場合、MIMIC-IV での外部検証では一般化が限定的(F1 < 0.70、約44%低下)。
- 異種の専門分野で訓練することで OB-GYN データへの一般化は改善(F1 約0.71、約11%低下)する一方、適合率は低下。
- 専門分野特異的な適応は重要であり、同じ用語が分野ごとに異なる価値を持つためである; GatorTron は性能と効率の良いバランスを提供。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。