[論文レビュー] A Human-Centric Pipeline for Aligning Large Language Models with Chinese Medical Ethics
この論文は MedES(中国古医倫理のシナリオ中心ベンチマーク)と guardian-in-the-loop アラインメント・パイプラインを提案し、7B パラメータのLLMをトレーニングして、倫理タスクにおいて671Bのベースラインを上回ることを示す。
Recent advances in large language models have enabled their application to a range of healthcare tasks. However, aligning LLMs with the nuanced demands of medical ethics, especially under complex real world scenarios, remains underexplored. In this work, we present MedES, a dynamic, scenario-centric benchmark specifically constructed from 260 authoritative Chinese medical, ethical, and legal sources to reflect the challenges in clinical decision-making. To facilitate model alignment, we introduce a guardian-in-the-loop framework that leverages a dedicated automated evaluator (trained on expert-labeled data and achieving over 97% accuracy within our domain) to generate targeted prompts and provide structured ethical feedback. Using this pipeline, we align a 7B-parameter LLM through supervised fine-tuning and domain-specific preference optimization. Experimental results, conducted entirely within the Chinese medical ethics context, demonstrate that our aligned model outperforms notably larger baselines on core ethical tasks, with observed improvements in both quality and composite evaluation metrics. Our work offers a practical and adaptable framework for aligning LLMs with medical ethics in the Chinese healthcare domain, and suggests that similar alignment pipelines may be instantiated in other legal and cultural environments through modular replacement of the underlying normative corpus.
研究の動機と目的
- 260件のソースから現実世界の中国医療倫理の課題を反映したシナリオ中心のベンチマーク(MedES)を開発する
- モデルの微調整を導く自動評価者を備えた guardian-in-the-loop アラインメントフレームワークを提案する
- 7Bパラメータのモデルが医療文脈の核心的倫理タスクでより大きなモデルを凌ぐことを示す
- モジュール化された規範コーパスを介して他の法的/文化的環境にも適用可能な再利用可能なパイプラインを提供する
- 倫理的LLMアラインメントにおける再現性とさらなる研究を可能にするデータセットとコードを提供する
提案手法
- MedESを260件の権威ある文書から構築し、12の高リスクシナリオにわたって1278の規範ルールを作成する
- 専門家ラベル付けデータで訓練された自動評価者を開発し、>97%のドメイン精度でプロンプト生成と倫理的フィードバックを提供する
- guardian-in-the-loop プロセスを用いた教師付き微調整(SFT)とドメイン固有の好み最適化を通じて7Bベースモデルをファインチューニングする
- 判断指向と推論指向の2段階 supervision で評価者を訓練し、人間注釈と自動生成データの混合を用いる
- 評価者のフィードバックが反復的なアラインメントと改善を導くよう、データ生成と微調整の多回合ループを適用する
- 倫理・安全・救急医療・薬剤安全の MedES主観・客観タスクで評価し、より大きなモデルと比較する

実験結果
リサーチクエスチョン
- RQ1RQ1: 小型で微調整されたモデルは、より大きなLLMと比較して倫理的パフォーマンスを rival することができるか、または超えることができるか?
- RQ2RQ2: 微調整における評価者主導のフィードバックは、さまざまな医療シナリオにおける倫理的意思決定を向上させるか?
主な発見
| Model | Type | Risk Rate ↓ | Quality Score ↑ | Comprehensive Score ↑ |
|---|---|---|---|---|
| deepseek-r1-7b-sft-round1 | Ours | 0.0489 | 0.9862 | 0.8862 |
| deepseek-r1-7b-sft-round2 | Ours | 0.0428 | 0.9886 | 0.9042 |
| deepseek-r1-7b-sft-round3 | Ours | 0.0452 | 0.9904 | 0.9241 |
| deepseek-r1-7b-sft-round4 | Ours | 0.0404 | 0.9915 | 0.9286 |
| deepseek-r1-7b-sft-round5 | Ours | 0.0320 | 0.9924 | 0.9356 |
| deepseek-r1-7b | DeepSeek | 0.1624 | 0.4667 | 0.2292 |
| deepseek-r1-671b | DeepSeek | 0.0338 | 0.8736 | 0.8103 |
| deepseek-v3-671b | DeepSeek | 0.0425 | 0.8342 | 0.7561 |
| gpt3.5 | GPT | 0.2239 | 0.5698 | 0.2184 |
| gpt4-turbo | GPT | 0.1036 | 0.6047 | 0.4387 |
| gpt4 | GPT | 0.1607 | 0.5994 | 0.3434 |
| doubao | General-purpose | 0.1395 | 0.4589 | 0.2552 |
- 7B deepseek-r1-7b-sft-round5 モデルは、主観的倫理推論で総合スコア0.9356、リスク率0.0320、品質スコア0.9924を達成して最も高い総合評価を得る。
- 統合的な倫理パフォーマンスで、我々の整合化7Bモデルは671B商用LLMを10%以上上回る。
- SFTは倫理知識・薬物安全・救急医療の指標を改善し、初期ラウンドで最大の利得を示す。
- 客観タスクの正確性は深度的規模のあるモデル(deepseek-r1-671b など)が7Bモデルより高い結果を示し、知識容量のスケール効果を示唆する。
- 反復的なデータ整理と guardian-in-the-loop アラインメントは、高リスクの臨床シナリオにおける倫理的信頼性を大幅に改善する。
- このフレームワークは、客観的タスクの知識ギャップを埋めるための retrieval-augmented アプローチの可能性を示唆する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。