[論文レビュー] UltraMedical: Building Specialized Generalists in Biomedicine
この論文は UltraMedical を提示する。大規模な生物医学指示データセットとオープンソースのワークフローで、Llama-3 モデルを生物医学の専門的なゼネラリストへファインチューニングし、生物医学報酬モデルと反復的好み学習で支援する。競争的な医療ベンチマークの性能を報告し、データセットとモデルを公開する。
Large Language Models (LLMs) have demonstrated remarkable capabilities across various domains and are moving towards more specialized areas. Recent advanced proprietary models such as GPT-4 and Gemini have achieved significant advancements in biomedicine, which have also raised privacy and security challenges. The construction of specialized generalists hinges largely on high-quality datasets, enhanced by techniques like supervised fine-tuning and reinforcement learning from human or AI feedback, and direct preference optimization. However, these leading technologies (e.g., preference learning) are still significantly limited in the open source community due to the scarcity of specialized data. In this paper, we present the UltraMedical collections, which consist of high-quality manual and synthetic datasets in the biomedicine domain, featuring preference annotations across multiple advanced LLMs. By utilizing these datasets, we fine-tune a suite of specialized medical models based on Llama-3 series, demonstrating breathtaking capabilities across various medical benchmarks. Moreover, we develop powerful reward models skilled in biomedical and general reward benchmark, enhancing further online preference learning within the biomedical LLM community. Datasets and models are available at https://github.com/TsinghuaC3I/UltraMedical
研究の動機と目的
- データ中心のファインチューニングと好み学習によって、オープンソースの GPT-4 レベルの生物医学一般家を構築する。
- 手動と合成プロンプトを組み合わせた高品質で多様かつ複雑な生物医学指示を作成する。
- オンライン好み学習と反復的なモデル改善を可能にする報酬モデルの開発。
- 標準的な医療ベンチマークと一般領域タスクで UltraMedical LMs を評価し、専門化と一般化のトレードオフを特徴づける。
- 生物医学生成AIにおけるコミュニティ協力を促進するため、データセットとモデルを公開する。
提案手法
- 約410kの指示を合計する手動と合成の医療プロンプトを統合して UltraMedical を構築する。
- ランキング用にモデル完了応答とGPT-4由来の好みを含む約10万のサブセットを注釈する。
- UltraMedical(および UltraMix)を用いて Llama-3-8B/70B モデルを監督付きファインチューニング(SFT)で微調整する。
- 1プロンプトあたり8つの completion 設定を用い、二値化した chosen/rejected のペアで DPO、KTO などの好み学習手法を適用する。
- UltraMedical の好みや他の Ultra-series データに基づく生物医療報酬モデル(RM)を訓練し、オンライン好み学習と BoN サンプリングを可能にする。
- 逐次的なオンライン好み学習と Best-of-N サンプリングを実施してモデル性能を段階的に向上させる。

実験結果
リサーチクエスチョン
- RQ1データセット設計と好み学習を通じて、オープンソースの生物医学 LLM が医療分野で GPT-4 レベルの能力に達し得るか。
- RQ2医療データと一般領域データの混合が、SFTと専門的なゼネラリスト向けの好み最適化に与える影響は何か。
- RQ3報酬モデルとオンライン好み学習の有効性は、Llama-3 ベースのモデルの医療領域能力を推進する上でどの程度か。
- RQ4専門的な生物医学ゼネラリストを開発する際、医療タスクの性能と一般領域能力の間にどんなトレードオフが生じるか。
- RQ5公開された UltraMedical データセットは、どの程度競争力のあるオープン生物医学 LLM の育成を促進できるか。
主な発見
- UltraMedical の 8B/70B モデルは医療ベンチマークで高度な性能を達成し、従来の独占モデルとの差を縮める。
- 70B の UltraMedical モデルは MedQA-USMLE で 86.5 を達成し、いくつかの設定でより大きな独占モデルと同等。
- SFT と xPO における医療データと一般領域データの混合は、医療タスクの性能を向上させる一方、一般領域のトレードオフを導入する。
- UltraMedical の好みで訓練された報酬モデルは、オンライン・反復的好み学習と BoN サンプリングをサポートし、医療および一般の報酬ベンチマークの RM ベースの結果で競争力を示す。
- 報酬モデルは場合によって自己整合性アンサンブルより再ランク付けで上回ることがあるが、モデルサイズにより効果は異なる。
- Public release of UltraMedical datasets and models aims to accelerate community progress in biomedical generative AI.

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。