[論文レビュー] Toward Global Large Language Models in Medicine
この論文は GlobMed(12言語にわたる50万件以上の多言語医療データセット)を構築し、GlobMed-Bench で56の LLM を評価し、GlobMed-LLMs(1.7B–8B パラメータ)を訓練して顕著な改善を達成しています。特にリソースの少ない言語で効果が大きいです。
Despite continuous advances in medical technology, the global distribution of health care resources remains uneven. The development of large language models (LLMs) has transformed the landscape of medicine and holds promise for improving health care quality and expanding access to medical information globally. However, existing LLMs are primarily trained on high-resource languages, limiting their applicability in global medical scenarios. To address this gap, we constructed GlobMed, a large multilingual medical dataset, containing over 500,000 entries spanning 12 languages, including four low-resource languages. Building on this, we established GlobMed-Bench, which systematically assesses 56 state-of-the-art proprietary and open-weight LLMs across multiple multilingual medical tasks, revealing significant performance disparities across languages, particularly for low-resource languages. Additionally, we introduced GlobMed-LLMs, a suite of multilingual medical LLMs trained on GlobMed, with parameters ranging from 1.7B to 8B. GlobMed-LLMs achieved an average performance improvement of over 40% relative to baseline models, with a more than threefold increase in performance on low-resource languages. Together, these resources provide an important foundation for advancing the equitable development and application of LLMs globally, enabling broader language communities to benefit from technological advances.
研究の動機と目的
- 世界的な言語資源の医療分野における格差とモデル性能を是正する。
- 低資源言語を含む12言語にわたる大規模な多言語医療データセット(GlobMed)を作成する。
- 多言語医療タスクにおける既存LLMのベンチマーク(GlobMed-Bench)を実施し、言語基盤の性能格差を明らかにする。
- GlobMed を訓練データとする多言語医療LLM(GlobMed-LLMs)を開発し、世界の医療AIアクセスを改善する。
提案手法
- 12言語以上の500,000件超を含む GlobMed を編成し、4つの低資源言語を含む。
- GlobMed-Bench を確立し、56の最先端の専用モデルおよびオープンウェイトのLLMを多言語医療タスクで体系的に評価する。
- GlobMed を用いて GlobMed-LLMs を訓練し、モデルサイズを1.7Bから8Bパラメータの範囲で設定する。
- 低資源言語を中心に、GlobMed-LLMs とベースラインモデルの相対的な性能向上を評価する。
実験結果
リサーチクエスチョン
- RQ1多言語医療データのカバレッジは各言語のLLM性能にどう影響するか。
- RQ2多言語医療タスクにおける56のLLMの性能ギャップはどうなっているか。
- RQ3GlobMed での訓練は低資源言語でのLLMの性能向上につながるか。
- RQ4GlobMed-LLMs はベースラインに対して全体および低資源言語でどの程度の改善を達成するか。
主な発見
- GlobMed は12言語にわたる50万件超の医療エントリを含み、うち4言語は低資源言語。
- GlobMed-Bench は言語ごとに顕著な性能格差を明らかにし、特に低資源言語で大きな差がある。
- GlobMed-LLMs(1.7B–8B)は、ベースラインに対して平均性能向上が40%以上を達成。
- GlobMed-LLMs は低資源言語でベースラインと比較して3倍以上の改善を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。