[論文レビュー] LLMs Accelerate Annotation for Medical Information Extraction
この論文は、 PaLM 2 を用いた few-shot プロンプトとポスト処理リゾルバを活用した LLM 支援のアノテーションパイプラインが、医療情報抽出の人間のラベリング時間を大幅に削減しつつ、専門家の人間ラベリングと同等のアノテーション品質を達成できることを示している。LLM ベースのアノテーション後の専門家による洗練により、専門家レベルの結果と大幅な時間節約を得られる。
The unstructured nature of clinical notes within electronic health records often conceals vital patient-related information, making it challenging to access or interpret. To uncover this hidden information, specialized Natural Language Processing (NLP) models are required. However, training these models necessitates large amounts of labeled data, a process that is both time-consuming and costly when relying solely on human experts for annotation. In this paper, we propose an approach that combines Large Language Models (LLMs) with human expertise to create an efficient method for generating ground truth labels for medical text annotation. By utilizing LLMs in conjunction with human annotators, we significantly reduce the human annotation burden, enabling the rapid creation of labeled datasets. We rigorously evaluate our method on a medical information extraction task, demonstrating that our approach not only substantially cuts down on human intervention but also maintains high accuracy. The results highlight the potential of using LLMs to improve the utilization of unstructured clinical data, allowing for the swift deployment of tailored NLP solutions in healthcare.
研究の動機と目的
- 医療NLPにおける高コストなラベル付きデータのボトルネックを、LLMsと人間の専門家を組み合わせて効率的な真実データラベルを得ることで解決する。
- LLMまたは人間によるベースアノテーションの2段階のアノテーションパイプラインを実証し、専門家による洗練を続け、従来の完全に人間だけのワークフローと比較する。
- i2b2 2009 データセットを用いた薬剤抽出タスクで評価し、時間削減とラベル品質を評価する。
- リコールを最大化し品質を維持するためのプロンプト設計とアンサンブル戦略に関する実践的な指針を提供する。
提案手法
- LLMで生成されたベースアノテーションを医療専門家が洗練してRefinement Annotationsとする二段階のアノテーションパイプラインを提案する。
- タスク特有のプロンプトと例を用いたfew-shot prompting設定でPaLM 2を用い、薬剤抽出出力を生成する。
- 文書をチャンクに分割し、YAML/構造化出力(IOB-Token または Direct Chunk スキーマ)でLLMをプロンプトし、Resolver Moduleを適用してLLM出力をNER-REオブジェクトに変換する。
- 2つのプロンプトスキーマ(IOB-TokenとDirect Chunk)を用いた実験と、それらの出力をアンサンブルしてリコールとF1を改善する。
- 人間による編集時間を最小化するためにリコールを優先し(F2指標)、時間節約と品質の分析を行う。
- LLM支援ベースアノテーションを従来のBase Raterアノテーションと比較し、専門家による洗練を評価する。
実験結果
リサーチクエスチョン
- RQ1LLMは医療情報抽出の高リコールなベースアノテーションを生成でき、人間のベースアノテーションと競合できるのか?
- RQ2完全に人間だけのパイプラインと比較した場合、専門家による洗練を伴うLLM支援アノテーションパイプラインの時間と品質のトレードオフはどうなるか?
- RQ3プロンプト設計とアンサンブルは、LLMが生成する薬剤抽出アノテーションの品質にどのように影響するか?
- RQ4LLMベースアノテーションの後の専門家による洗練は、人間のみのワークフローと同等の専門家レベルの品質に達するか?
主な発見
| Label Type | Vertical Recall | Vertical Precision | Vertical F1 | Horizontal Recall | Horizontal Precision | Horizontal F1 | Mean Time (min/doc) | Median Time (min/doc) |
|---|---|---|---|---|---|---|---|---|
| Base Rater | 0.789 | 0.893 | 0.838 | 0.734 | 0.821 | 0.775 | 17.60 | 11.93 |
| Base LLM | 0.850 | 0.762 | 0.804 | 0.810 | 0.703 | 0.752 | n/a | n/a |
| Base Rater + Refinement | 0.912 | 0.907 | 0.910 | 0.887 | 0.879 | 0.883 | 26.67 | 19.18 |
| Base LLM + Refinement | 0.921 | 0.893 | 0.907 | 0.892 | 0.860 | 0.876 | 11.32 | 7.27 |
- LLM支援ベースアノテーションは、テストセット全体のアノテーション時間を平均で58%削減する。
- LLMベースアノテーション後の専門家による洗練は、専門家主導の人間による洗練と同等の品質を達成する。
- Base LLM + Refinement は、Base Rater + Refinement に近い高い縦方向/横方向 F1 スコアを実現し、文書あたりの時間節約も顕著で(11.32 分対 26.67 分)。
- Base expert raters は洗練で高い F1 スコアを達成するが、LLM支援ワークフローは依然としてベースアノテーションでの 26% の時間節約を提供する。
- プロンプト設計とアンサンブル(IOB-Token と Direct Chunk)はリコールを改善し、手動編集を減らすためにリコールを優先する。
- 両スキーマの最良プロンプトのアンサンブルが開発段階で最も強い性能を示し、テストセットのラベリングを導いた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。