QUICK REVIEW

[論文レビュー] Distilling Large Language Models for Biomedical Knowledge Extraction: A Case Study on Adverse Drug Events

裕二池谷, Sheng Zhang|arXiv (Cornell University)|Jul 12, 2023

Topic Modeling被引用数 15

ひとこと要約

この論文は、LLMの知識をタスク特化型の PubMedBERT 学習者モデルに蒸留することで、ラベル付きデータなしでもADE抽出性能を競合させ、教師モデルやGPT-4を上回り、1,000倍超小型でホワイトボックスアクセスを提供することを示している。

ABSTRACT

Large language models (LLMs), such as GPT-4, have demonstrated remarkable capabilities across a wide range of tasks, including health applications. In this paper, we study how LLMs can be used to scale biomedical knowledge curation. We find that while LLMs already possess decent competency in structuring biomedical text, by distillation into a task-specific student model through self-supervised learning, substantial gains can be attained over out-of-box LLMs, with additional advantages such as cost, efficiency, and white-box model access. We conduct a case study on adverse drug event (ADE) extraction, which is an important area for improving care. On standard ADE extraction evaluation, a GPT-3.5 distilled PubMedBERT model attained comparable accuracy as supervised state-of-the-art models without using any labeled data. Despite being over 1,000 times smaller, the distilled model outperformed its teacher GPT-3.5 by over 6 absolute points in F1 and GPT-4 by over 5 absolute points. Ablation studies on distillation model choice (e.g., PubMedBERT vs BioGPT) and ADE extraction architecture shed light on best practice for biomedical knowledge extraction. Similar gains were attained by distillation for other standard biomedical knowledge extraction tasks such as gene-disease associations and protected health information, further illustrating the promise of this approach.

研究の動機と目的

大規模言語モデル（LLMs）を用いたスケーラブルな生物医薬知識のキュレーションを動機付ける。
LLMs からタスク特化型の学生モデルへの蒸留が効率と精度を向上させることを示す。
大規模処理に適したエンドツーエンドのADE抽出アーキテクチャを開発する。
ADE抽出を超える他の生物医薬NLPタスクにも蒸留の恩恵が適用できることを示す。

提案手法

NERと関係抽出を1回のパスで統合した、薬剤中心のエンドツーエンドADE抽出アーキテクチャを提案する。
薬剤の言及を平均プーリングし、薬剤表現をトークンの隠れ状態と連結して、薬剤ごとのADEトークン分類を可能にする。
連結表現上でシグモイド活性化を用いた単一の線形分類器を適用し、ADEスパンを予測する。
PubMed要約から薬剤中心のラベルなしコーパスを作成し、GPT-3.5 の教師モデルを用いてADE注釈を生成し自己指導学習を行う。
教師が生成した40,000のラベルに似たペアを用いて学生モデル（PubMedBERT と BioGPT）へ蒸留する；ゼロショット/5-shotプロンプティングを比較する。
ADEコーパス（Gurulingappa et al., 2012）に対する緩いF1で評価し、モデル選択とアーキテクチャのアブレーションを実施する。

実験結果

リサーチクエスチョン

RQ1エンドツーエンドのADE抽出におけるLLM蒸留は、ゼロショット/数ショットのLLMsおよび監視付きベースラインと比べてどれほど有効か？
RQ2蒸留アーキテクチャとモデル選択が生物医薬知識抽出タスクに与える影響は何か？
RQ3LLMsからの蒸留は遺伝子-疾患連関やPHIなど他の生物医薬NLPタスクへ一般化できるか？

主な発見

Method	Teacher LLM	Model	Training Instances	Test F1
LLM out-of-box	-	GPT-3.5 (zero-shot)	-	78.22
LLM out-of-box	-	GPT-4 (zero-shot)	-	84.92
LLM out-of-box	-	GPT-3.5 (5-shot)	-	85.21
LLM out-of-box	-	GPT-4 (5-shot)	-	86.45
Distillation	GPT-3.5 (5-shot)	BioGPT	40,000	84.21
Distillation	GPT-3.5 (5-shot)	PubMedBERT	40,000	91.99
Supervised Learning	-	BioGPT	3,417	88.08
Supervised Learning	-	PubMedBERT	3,417	93.36

GPT-3.5 から蒸留した PubMedBERT は、ラベル付きデータなしで ADE 抽出において supervised SOTA と同等の精度を達成する。
蒸留済みの PubMedBERT（1000x 以上小型）は、その教師 GPT-3.5 を F1 で絶対値で6ポイント超上回り、GPT-4 を5ポイント超上回る。
そのままのGPT-3.5とGPT-4は競合的だが監視付きモデルには及ばず；蒸留によりギャップが大幅に縮まる。
蒸留済みの BioGPT は ADE では PubMedBERT に劣る、GPTモデルは生成タスクで優れるが知識抽出には難しいという既知の観察と一致。
遺伝子-疾患連関やPHIのような他の生物医学タスクにも蒸留効果が見られ、MedNLI は純粋な含意タスクでより限定的な利得を示す。
アブレーション研究は、生物医学知識抽出における蒸留設計の選択（アーキテクチャとモデル）の重要性を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。