[論文レビュー] GatorTron: A Large Clinical Language Model to Unlock Patient Information from Unstructured Electronic Health Records
GatorTronは、最大で8.9Bパラメータの大規模臨床言語モデルを開発し、>90B語以上(その中には>82Bの脱識別臨床テキストを含む)で訓練し、5つの臨床NLPタスクで評価。スケールによる性能向上を顕著に示す。
There is an increasing interest in developing artificial intelligence (AI) systems to process and interpret electronic health records (EHRs). Natural language processing (NLP) powered by pretrained language models is the key technology for medical AI systems utilizing clinical narratives. However, there are few clinical language models, the largest of which trained in the clinical domain is comparatively small at 110 million parameters (compared with billions of parameters in the general domain). It is not clear how large clinical language models with billions of parameters can help medical AI systems utilize unstructured EHRs. In this study, we develop from scratch a large clinical language model - GatorTron - using >90 billion words of text (including >82 billion words of de-identified clinical text) and systematically evaluate it on 5 clinical NLP tasks including clinical concept extraction, medical relation extraction, semantic textual similarity, natural language inference (NLI), and medical question answering (MQA). We examine how (1) scaling up the number of parameters and (2) scaling up the size of the training data could benefit these NLP tasks. GatorTron models scale up the clinical language model from 110 million to 8.9 billion parameters and improve 5 clinical NLP tasks (e.g., 9.6% and 9.5% improvement in accuracy for NLI and MQA), which can be applied to medical AI systems to improve healthcare delivery. The GatorTron models are publicly available at: https://catalog.ngc.nvidia.com/orgs/nvidia/teams/clara/models/gatortron_og.
研究の動機と目的
- 非構造化EHRデータをより有効活用するための大規模臨床言語モデルの開発を促す。
- パラメータのスケーリングとデータ量が臨床NLPタスクの性能に与える影響を調査する。
- 複数の臨床NLPタスクでGatorTronを系統的に評価し、タスク間の汎化性を検討する。
提案手法
- >90B語を超えるテキストを使い、>82Bの脱識別臨床テキストを含めて、ゼロからGatorTronを訓練する。
- モデルを110Mから8.9Bパラメータへスケールさせ、性能向上を研究する。
- 5つの臨床NLPタスクで評価する:臨床概念抽出、医療関係抽出、意味的テキスト類似度、自然言語推論(NLI)、医療質問応答(MQA)。
- パラメータサイズとデータ規模の効果を評価するため、モデルサイズ間で性能を比較する。
実験結果
リサーチクエスチョン
- RQ1モデル規模(パラメータ)を大きくすることが臨床NLPタスクの性能にどのように影響するか?
- RQ2訓練データサイズを増やすことがタスク間の結果にどう影響するか?
- RQ3大規模臨床言語モデルは、抽出、関係、類似、NLI、QAなどの臨床NLPタスク全般で一貫した改善をもたらすか?
- RQ4パラメータとデータの両方をスケールした場合、主要タスクにおける相対的な改善はどの程度か?
主な発見
- モデル規模を110Mから8.9Bパラメータへ拡大すると、5つの臨床NLPタスクで改善が見られる。
- NLIの精度が9.6%向上する。
- MQAの精度が9.5%向上する。
- >90B語を超える訓練データ(その中には>82Bの脱識別臨床テキストを含む)により、実質的な性能向上を支持する。
- GatorTronモデルは医療AIシステムで公に利用可能です。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。