[论文解读] Aloe: A Family of Fine-tuned Open Healthcare LLMs
本文提出 Aloe,一系列从开源基础模型微调的开放医疗保健 LLM,结合合成数据、模型合并以及对齐,达到 7B-scale 医疗 LLM 的最新水平,同时通过红队演练和 DPO 对齐来解决伦理与安全问题。
As the capabilities of Large Language Models (LLMs) in healthcare and medicine continue to advance, there is a growing need for competitive open-source models that can safeguard public interest. With the increasing availability of highly competitive open base models, the impact of continued pre-training is increasingly uncertain. In this work, we explore the role of instruct tuning, model merging, alignment, red teaming and advanced inference schemes, as means to improve current open models. To that end, we introduce the Aloe family, a set of open medical LLMs highly competitive within its scale range. Aloe models are trained on the current best base models (Mistral, LLaMA 3), using a new custom dataset which combines public data sources improved with synthetic Chain of Thought (CoT). Aloe models undergo an alignment phase, becoming one of the first few policy-aligned open healthcare LLM using Direct Preference Optimization, setting a new standard for ethical performance in healthcare LLMs. Model evaluation expands to include various bias and toxicity datasets, a dedicated red teaming effort, and a much-needed risk assessment for healthcare LLMs. Finally, to explore the limits of current LLMs in inference, we study several advanced prompt engineering strategies to boost performance across benchmarks, yielding state-of-the-art results for open healthcare 7B LLMs, unprecedented at this scale.
研究动机与目标
- 通过开发具竞争力的开放型 LLM 来推动医疗保健 AI 的开放科学,并保护公众利益。
- 研究指令微调、模型合并和对齐在开放医疗保健 LLM 中的有效性。
- 通过红队演练、DPO 对齐和风险评估来评估伦理、偏见和安全方面。
- 分享训练数据、合并配置和提示策略,以实现可重复性和负责任的部署。
提出的方法
- 使用领域特定的医疗指令数据和合成的 CoT 增强数据对开源基础模型(Mistral-7B 和 Llama 3-8B)进行微调,以创建 Aloe 变体。
- 应用模型合并(DARE-TIES)以整合多个基础/子模型的优势,获得一个合并后的 7B-8B 尺度模型。
- 执行两阶段 Direct Preference Optimization (DPO) 对齐,其中包含一个受红队启发的数据集,以提高安全性和伦理行为。
- 在推理阶段探索高级提示策略(Medprompting、自洽 CoT、带嵌入的少量示例)以提升医学基准的表现。
- 在 CC-BY-NC 4.0 下发布 DPO 对齐的模型,并分享合并配置和提示库,以支持可重复性和安全性分析。
实验结果
研究问题
- RQ1指令微调、合成数据和模型合并如何影响 ~7B 规模的开放医疗保健 LLM 的性能?
- RQ2对齐(DPO)和红队演练能否在不损害医学准确性的前提下提升开放医疗保健 LLM 的安全性、偏见和事实性?
- RQ3高级提示策略在该规模的开放医疗保健 LLM 基准测试中是否显著提升?
- RQ4Aloe 系列在模型规模、性能与安全性之间的权衡是什么?
主要发现
- 在使用模型合并和高级 prompting 的情况下,Aloe 在 7B 的开放医疗保健模型中达到最新水平。
- DPO 对齐降低了不安全回应并提升伦理与事实性指标,尽管在某些场景下,较大模型仍可能表现出更高的偏见和有害性。
- Medprompting 与自洽提示结合集成显著提升医学基准准确性,超过一定规模的集成后收益递减。
- Aloe-Llama3-8B-Alpha 在多个医疗基准上超过了若干更大的开放模型,并接近更大私有模型的表现。
- 本文公开发布 DPO 对齐模型及训练/合并配置,以支持可重复性和以安全为导向的研究。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。