QUICK REVIEW

[論文レビュー] HuatuoGPT-II, One-stage Training for Medical Adaption of LLMs

Junying Chen, Xidong Wang|arXiv (Cornell University)|Nov 16, 2023

Topic Modeling被引用数 24

ひとこと要約

HuatuoGPT-II はドメインデータを指示-出力形式に変換し、中国医療LLMを訓練する統一のワンステージドメイン適応プロトコルを導入し、中国医療ベンチマークで最先端の結果を達成。

ABSTRACT

Adapting a language model into a specific domain, a.k.a `domain adaption', is a common practice when specialized knowledge, e.g. medicine, is not encapsulated in a general language model like Llama2. The challenge lies in the heterogeneity of data across the two training stages, as it varies in languages, genres, or formats. To tackle this and simplify the learning protocol, we propose to transform heterogeneous data, from the both pre-training and supervised stages, into a unified, simple input-output pair format. We validate the new protocol in the domains where proprietary LLMs like ChatGPT perform relatively poorly, such as Traditional Chinese Medicine. The developed model, HuatuoGPT-II, has shown state-of-the-art performance in Chinese medicine domain on a number of benchmarks, e.g. medical licensing exams. It even outperforms proprietary models like ChatGPT and GPT-4 in some aspects, especially in Traditional Chinese Medicine. Expert manual evaluations further validate HuatuoGPT-II's advantages over existing LLMs. Notably, HuatuoGPT-II was benchmarked in a fresh Chinese National Medical Licensing Examination where it achieved the best performance, showcasing not only its effectiveness but also its generalization capabilities.

研究の動機と目的

医療LLMのドメイン適応を動機づけ、トレーニングパイプラインの複雑さを低減する。
従来の二段階の継続的事前訓練と監視付きファインチューニングを代替する統一ワンステージ・プロトコルを提案する。
伝統的な中国医学を含む強力な性能を持つ中国語医療LLMを開発・評価する。
データの統一と優先サンプリングを示し、ドメイン知識の注入を効果的に行う。

提案手法

百科事典、書籍、文献、ウェブ源を横断する多様なドメイン特化コーパスを収集する。
LLMを用いた質問生成と回答合成によりドメインデータを指示-出力形式に統一し、SFTデータと整合させる。
統一されたドメインデータをファインチューニングデータと統合して一段階で訓練を実行し、優先サンプリング戦略に導く。
データエンコードを固定長シーケンスに標準化し、指示スタイルデータの出力損失のみを最適化する。
オープンベンチマークと専門家評価の両方で評価を行い、新たな医療ライセンス試験シナリオを含む。

実験結果

リサーチクエスチョン

RQ1ワンステージのドメイン適応と従来の二段階パイプラインで、医療LLMの性能向上はどの程度生じるのか？
RQ2LLM生成の質問と回答によるデータ統合が、異質なドメインデータをSFTデータにどれだけ整合させるのに有効か？
RQ3一段階適応で訓練された中国語医療LLMは、中国語医療ベンチマークとライセンス試験でオープンソースおよび専有モデルを上回れるのか？

主な発見

モデル	MedQA	MedMCQA	CMB	CMExam	MMLU	CMMLU	C_Eval
HuatuoGPT-II (7B)	25.77	31.20	28.81	31.07	34.91	33.23	36.53
HuatuoGPT-II (13B)	45.68	47.41	63.34	68.98	54.00	61.45	64.00
DISC-MedLLM	28.67	-	32.47	36.62	-	-	-
ChatGPT (API)	52.24	53.60	43.26	46.51	69.96	50.37	48.80
GPT-4 (API)	47.3	48.2	53.5	50.3	53.7	54.2	58.6

HuatuoGPT-II は MedQA、MedMCQA、CMB、CMExam などの中国医療ベンチマークでオープンソースモデルの中で最先端の性能を達成し、13B 版が特に良好な性能を示す。
中国国家医師国家試験では、13B モデルは複数セクションで主要な専有モデルに迫るか同等で、オープンソースモデルの多くのベースラインを大きく上回っている。
専門家評価と自動評価は、主要なLLMと比較して応答品質が競争力が高いか優れており、特に伝統的な中国医学に強みを示す。
データ統一と優先サンプリングを組み合わせた一段階のドメイン適応は、二段階メソッドと比べて訓練パイプラインを簡素化しつつ、ドメイン知識の転移を効果的に行う。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。