[論文レビュー] ExperienceWeaver: Optimizing Small-sample Experience Learning for LLM-based Clinical Text Improvement
tldr: ExperienceWeaver は多次元の臨床フィードバックをエラー特化のヒントと高レベルの戦略へと変換する階層的エクスペリエンス蒸留フレームワークを導入し、少数サンプルのLLMベース臨床テキスト改善を可能にし、実験でいくつかのSOTAモデルを上回る。
Clinical text improvement is vital for healthcare efficiency but remains difficult due to limited high-quality data and the complex constraints of medical documentation. While Large Language Models (LLMs) show promise, current approaches struggle in small-sample settings: supervised fine-tuning is data-intensive and costly, while retrieval-augmented generation often provides superficial corrections without capturing the reasoning behind revisions. To address these limitations, we propose ExperienceWeaver, a hierarchical framework that shifts the focus from data retrieval to experience learning. Instead of simply recalling past examples, ExperienceWeaver distills noisy, multi-dimensional feedback into structured, actionable knowledge. Specifically, error-specific Tips and high-level Strategies. By injecting this distilled experience into an agentic pipeline, the model learns "how to revise" rather than just "what to revise". Extensive evaluations across four clinical datasets demonstrate that ExperienceWeaver consistently improves performance, surpassing state-of-the-art models such as Gemini-3 Pro in small-sample settings.
研究の動機と目的
- 臨床テキスト改善のニーズをデータ不足と異質な臨床医の期待の下で動機付ける。
- リトリーバルベースの方法から蒸留ベースのエクスペリエンス学習へのパラダイムシフトを提案する。
- 動作可能なヒントと高レベルの戦略を生み出す二段階のエクスペリエンス織り込みプロセスを開発する。
- 蒸留されたエクスペリエンスを、エラー検出、改訂、自己批評のためのエージェンシーを持つ多エージェント改訂パイプラインに統合する。
- 複数の臨床データセットで有効性を示し、少数サンプル設定で強力なベースラインと比較する。
提案手法
- 二段階の Experience Weaver: 第1段階は Experience Abstraction と Experience Combination によって raw feedback を LLM に guided されて構造化されたエクスペリエンスへ蒸留する。
- 第2段階は蒸留されたエクスペリエンスを二層へ再織り込み:エラー特化のヒントと、それぞれのフェーズ(検出、改訂、自己批評)における支援ケースと機能的戦略。
- Experience Retriever は層状のエクスペリエンスをエージェンシーパイプラインへ注入し、情報性と簡潔さのバランスを取るために最大ヒント数を設定。
- エージェンシー系フレームワークは ReAct スタイルの複数エージェント(エラー検出、改訂、自己批評)が共有メモリ、RAG、Experience Retriever を介して連携する。
- フィードバックは多次元(正確さ、書式、意味性、可読性)で、評価とガイダンスプロンプトの両方を informing する。
- ハイパーパラメータ(グループサイズ Ng、エラー頻度閾値 τe、最大取得ヒント数 τt) は織り込みと取得の粒度と効率を制御する。
実験結果
リサーチクエスチョン
- RQ1臨床テキスト品質を評価する際の LLM-アズ-ジャッジ フレームワークはどれだけ信頼できるか、どのベースモデルが最も安定か。
- RQ2ExperienceWeaver は多次元かつ少数サンプルのフィードバックを実用的なエクスペリエンスへ変換し、臨床テキスト改訂品質を向上させることができるか。
- RQ3ExperienceWeaver は異なるデータソースと言語に跨る少数サンプル臨床テキスト処理でどれだけ効果的か。
- RQ4経験の影響を与える要因(フィードバック量、織り込みの粒度など)は何か。
主な発見
- ExperienceWeaver は Gemini-3 Pro や GPT-5.1 を含む強力なベースラインと比較して、4つの臨床データセットで一貫してテキスト品質を向上させた。
- データセット全体での5段階リッカート尺度の平均改善は、英語版 Chest X-ray で 0.794、中国語 Abdominal CT で 0.456、Discharge で 0.412、Clinical Free Text で 0.137。
- 実世界検証では、織り込まれたエクスペリエンスを取り入れることで、エラー検出の指標(正確さ、適合率、再現率)が最大でそれぞれ約20.4%、16.3%、28.6% 向上した。
- 少数サンプルの検証タスクにおいて、中程度のヒント長(τ = 3)がより安定していることが観察された。
- このアプローチは複数の単発LLMベースラインや RAG ベースの手法を上回り、少数サンプル臨床テキスト改善において強力な性能を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。