[論文レビュー] Improving Medical Large Vision-Language Models with Abnormal-Aware Feedback
UMed-LVLM は Medical Abnormalities Unveiling (MAU) データセットと Abnormal-Aware Instruction Tuning および Rewarding によって異常性を可視化し、既存の Med-LVLM を超える異常局在化と医用画像理解を向上させる。
Existing Medical Large Vision-Language Models (Med-LVLMs), encapsulating extensive medical knowledge, demonstrate excellent capabilities in understanding medical images. However, there remain challenges in visual localization in medical images, which is crucial for abnormality detection and interpretation. To address these issues, we propose a novel UMed-LVLM designed to unveil medical abnormalities. Specifically, we collect a Medical Abnormalities Unveiling (MAU) dataset and propose a two-stage training method for UMed-LVLM training. To collect MAU dataset, we propose a prompt method utilizing the GPT-4V to generate diagnoses based on identified abnormal areas in medical images. Moreover, the two-stage training method includes Abnormal-Aware Instruction Tuning and Abnormal-Aware Rewarding, comprising Relevance Reward, Abnormal Localization Reward and Vision Relevance Reward. Experimental results demonstrate that our UMed-LVLM significantly outperforms existing Med-LVLMs in identifying and understanding medical abnormalities, achieving a 58% improvement over the baseline. In addition, this work shows that enhancing the abnormality detection capabilities of Med-LVLMs significantly improves their understanding of medical images and generalization capability.
研究の動機と目的
- 医用 LVLM における視覚的局在化の改善を動機づけ、異常検出と解釈性を向上させる。
- 異常領域を注釈し異常性に焦点を当てた診断を生成するデータセット(MAU)を開発する。
- Med-LVLM を異常性に焦点を当てて訓練する Abnormal-Aware Instruction Tuning および Abnormal-Aware Rewarding(AAR)を導入する。
提案手法
- 医用画像で特定された異常領域に基づく診断を生成するため、GPT-4V を用いたプロンプト手法を介して MAU を作成する。
- 2 段階の訓練を通じて UMed-LVLM を訓練する:Abnormal-Aware Instruction Tuning および Abnormal-Aware Rewarding(AAR)。
- AAR は LLM の関連性報酬フレームワークと Abnormal Localization Rewarding(ALR)および Vision Relevance Rewarding(VRR)を組み合わせる。
- ALR は予測された異常ボックスと真値異常ボックス間の IoU を局在化報酬として使用する。
- VRR は異常カテゴリトークンと異常画像パッチ間の注意の整合性を評価する。
- 報酬を正規化・集約してエントロピー正則化付きの PPO ベースの目的を形成する。
実験結果
リサーチクエスチョン
- RQ1異常開示データと報酬を導入することは Med-LVLM の異常性局在化と診断精度を改善するか?
- RQ2Abnormal-Aware Rewarding は医用モダリティ全体でモデルの注意と異常の局在化にどのような影響を与えるか?
- RQ3未見の医用カテゴリおよびモダリティ間データへ異常意識トレーニングの一般化はどの程度か?
主な発見
| 方法 | DL | KS | KV | NIH | TBX | Avg |
|---|---|---|---|---|---|---|
| MiniGPT-4 | 0.02 | 0.00 | 0.02 | 0.00 | 0.00 | 0.01 |
| mPLUG-Owl | 0.05 | 0.00 | 0.01 | 0.00 | 0.00 | 0.01 |
| LLaVA | 0.20 | 0.00 | 0.04 | 0.00 | 0.00 | 0.05 |
| Qwen-VL | 0.13 | 0.00 | 0.01 | 0.00 | 0.00 | 0.03 |
| XrayGPT | 0.18 | 0.12 | 0.02 | 0.07 | 0.06 | 0.09 |
| LLaVA-Med | 0.22 | 0.04 | 0.12 | 0.03 | 0.01 | 0.08 |
| Med-Flamingo | 0.27 | 0.15 | 0.15 | 0.09 | 0.02 | 0.14 |
| MedVInt | 0.29 | 0.11 | 0.27 | 0.08 | 0.09 | 0.17 |
| MedVInt ∗ | 0.44 | 0.94 | 0.95 | 0.30 | 0.80 | 0.69 |
| MedVInt ⋆ | 0.42 | 0.93 | 0.93 | 0.28 | 0.78 | 0.67 |
| UMed-LVLM | 0.53 | 0.99 | 0.98 | 0.37 | 0.86 | 0.75 |
| GPT-4V | - | - | - | - | - | 0.34 |
- UMed-LVLM は MAU テストセットに対して複数データセット(DL、KS、KV、NIH、TBX)で既存の Med-LVLM およびいくつかの LVLM を上回る。
- 2 段階の異常意識トレーニングはベースラインより有意な向上をもたらし、アブレーションでは ALR および VRR の双方が性能に寄与。
- 一般化性能:UMed-LVLM は MedVInt 系列および他のベースラインよりデータセット横断・モダリティ横断の一般化が優れている。
- 局在化精度は診断に影響を与え、IoU が約 0.6 程度まで局在化を改善すると診断性能が向上するが、それを超えると利得は頭打ちになる。
- 指示チューニングデータ規模とエポック数は性能に影響し、データ量が多くエポック数が多いほど結果が改善する。
- 単一モダリティでのクロスモーダル訓練は他モダリティで評価した場合の性能を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。