QUICK REVIEW

[論文レビュー] Apollo: A Lightweight Multilingual Medical LLM towards Democratizing Medical AI to 6B People

Xinyin Wang, Nuo Chen|arXiv (Cornell University)|Mar 6, 2024

Artificial Intelligence in Healthcare and Education被引用数 10

ひとこと要約

Apolloは0.5B–7Bの軽量マルチリンガル医療LLMをApolloCorporaで訓練し、英語、中国語、ヒンディー語、スペイン語、フランス語、アラビア語をカバー、XMedBenchを評価に導入し、代理チューニングがプライベートデータを公開せずに大規模モデルへマルチリンガル医療機能を拡張できることを示す。

ABSTRACT

Despite the vast repository of global medical knowledge predominantly being in English, local languages are crucial for delivering tailored healthcare services, particularly in areas with limited medical resources. To extend the reach of medical AI advancements to a broader population, we aim to develop medical LLMs across the six most widely spoken languages, encompassing a global population of 6.1 billion. This effort culminates in the creation of the ApolloCorpora multilingual medical dataset and the XMedBench benchmark. In the multilingual medical benchmark, the released Apollo models, at various relatively-small sizes (i.e., 0.5B, 1.8B, 2B, 6B, and 7B), achieve the best performance among models of equivalent size. Especially, Apollo-7B is the state-of-the-art multilingual medical LLMs up to 70B. Additionally, these lite models could be used to improve the multi-lingual medical capabilities of larger models without fine-tuning in a proxy-tuning fashion. We will open-source training corpora, code, model weights and evaluation benchmark.

研究の動機と目的

英語、中国語、ヒンディー語、スペイン語、フランス語、アラビア語の6言語に対してマルチリンガル医療機能を拡張し、医療AIの民主化を実現する。
高品質なマルチリンガル医療データ（ApolloCorpora）と評価ベンチマーク（XMedBench）を構築し、言語間で医療知識を評価する。
軽量モデル（0.5B–7B）が同規模の同等モデルを上回ることを示し、代理チューニングを介して大規模モデルを強化できることを、プライベート医療データを公開せずに示す。
多言語トレーニングとデータリライト戦略が、潜在する多言語トレーニングリスクを分析しつつ、言語を横断した医療理解を改善できることを示す。

提案手法

六言語で、書籍・論文・百科事典・ガイドライン・対話・試験・ウェブソースから高品質な医療データを収集してApolloCorporaを作成する。
事前学習データの一部をChatGPTを用いてQAペアに書き換え、事前学習からインストラクションチューニングへの移行を円滑にする。
適応的で優先度ベースのデータサンプリングを適用し、事前学習データとインストラクションチューニングデータを混在させる。
0.5B、1.8B、2B、6B、7BパラメータのApolloモデルを訓練し、多言語トレーニングと言語特異的トレーニングの比較を行う。
XMedBenchを用いて、言語を横断する実際の医療試験問題を模したプロンプトを使用して、多言語医療知識の評価を行う。
ProxyTuningを提案・評価し、プライベート医療データへ直接ファインチューニングすることなく、大規模モデルを小規模なファインチューニング済み医療モデルに合わせられるようにする。

実験結果

リサーチクエスチョン

RQ1医療LLMの多言語トレーニングは、言語特化モデルや単純な重みの平均化よりも、言語間で一貫して高い性能を発揮するか？
RQ2事前学習データをQAペアに書き換えることは、下流の多言語医療性能にどのような影響を与えるか？
RQ3代理チューニングは、プライベート医療コーパスを中央集権的な訓練に公開することなく、より大きな一般LLMへ多言語医療機能を拡張できるか？
RQ4多言語医療LLMにおける言語別の強みとギャップ（例：アラビア語・ヒンディー語）は何か、混合トレーニングはそれらをどう緩和できるか？
RQ5ミックス/トレーニング戦略がロングテール言語と語学間知識移転に与える影響は何か？

主な発見

多言語トレーニングは、調べられた全言語で言語特化モデルより平均的な性能向上を示す。
Apollo-7Bは同規模の多言語医療LLMの中でも最先端の性能を達成し、Apollo-7Bはその規模で全体性能をGPT-3.5に匹敵する。
アラビア語とヒンディー語は他言語と比較して性能が弱く、多言語間のギャップを示す。
事前学習データをQAペアへ書き換えるだけでは全体性能を損なわず、混合トレーニング後のスムーズな移行は非主要言語でより良い結果を生む。
ミックストレーニングは、モノリンガルや単一言語トレーニングと比べて多言語医療機能を大幅に向上させる。
ProxyTuningは、プライベート医療データを用いずに小さなApolloモデルをガイドとして用い、大規模モデルに多言語医療能力を取得させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。