QUICK REVIEW

[論文レビュー] HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

Wan‐Wan Lin, Wenqiao Zhang|ArXiv.org|Feb 14, 2025

Topic Modeling被引用数 3

ひとこと要約

HealthGPTは、医療ビジュアル理解と生成を統合する統合型医療ビジョン-ランゲージモデルであり、異種知識適応アプローチ（H-LoRA）と階層的視覚認識を用いてVL-Healthで訓練され、医療のマルチモーダルタスクで優れた結果を達成します。

ABSTRACT

We present HealthGPT, a powerful Medical Large Vision-Language Model (Med-LVLM) that integrates medical visual comprehension and generation capabilities within a unified autoregressive paradigm. Our bootstrapping philosophy is to progressively adapt heterogeneous comprehension and generation knowledge to pre-trained large language models (LLMs). This is achieved through a novel heterogeneous low-rank adaptation (H-LoRA) technique, which is complemented by a tailored hierarchical visual perception approach and a three-stage learning strategy. To effectively learn the HealthGPT, we devise a comprehensive medical domain-specific comprehension and generation dataset called VL-Health. Experimental results demonstrate exceptional performance and scalability of HealthGPT in medical visual unified tasks. Our project can be accessed at https://github.com/DCDmllm/HealthGPT.

研究の動機と目的

医療シナリオでの理解と生成の両方を扱える統合型医療ビジョン-Languageモデルの必要性を動機づける。
理解と生成の学習を分離するパラメータ効率の高い適応フレームワーク（H-LoRA）を開発する。
異なるタスクに合わせて視覚入力を調整する階層的視覚認識戦略を設計する。
理解タスクと生成タスクを跨ぐ専用のマルチタスク医療データセット（VL-Health）を作成する。
最先端の医療LVLMおよび統合LVLMと比較して、複数の指標で拡張性と有効性を示す。

提案手法

HealthGPTを離散的なテキストと視覚トークンを用いる統合型自己回帰モデルとして導入する。
タスク固有の知識を別々のプラグインに格納し情報を動的にルーティングする異種低ランク適応（H-LoRA）を提案する。
生成と理解で concrete-grained（具体的粒度）と abstract-grained（抽象粒度）の視覚特徴を選択する階層的視覚認識（HVP）を採用する。
H-LoRAプラグイン、フュージョン埋め込み、出力ヘッドを訓練する三段階学習戦略（TLS）を採用し、適切な場合には特定の構成を固定したまま学習を進める。
VQGANベースの離散視覚トークン戦略を用いて、LLMフレームワーク内で視覚から視覚への再構成と画像生成を可能にする。
医療LVLM訓練のために理解タスク7件と生成タスク5件を組み合わせたドメイン特化データセットVL-Healthを作成する。

実験結果

リサーチクエスチョン

RQ1統合型の医療 LVLMは、単一の自己回帰フレームワーク内で視覚理解と生成を効果的に統合できるのか。
RQ2異種知識適応（H-LoRA）は医療データにおける理解と生成の学習間の葛藤を緩和できるのか。
RQ3階層的視覚認識は医療ビジョン-ランゲージタスクの効率と性能を向上させるのか。
RQ4HealthGPTは医療ビジュアルタスクで、最先端の医療LVLMおよび統合モデルと比較してどの程度性能が良いのか。
RQ5三段階学習戦略が下流の医療タスクに与える影響はどの程度か。

主な発見

HealthGPTは医療ビジュアル理解タスクにおいて、医療専用 LVLM および一般統合モデルと比較して優れた性能を実現している。
HealthGPTは小型ベースモデル（例：HealthGPT-M3 3.8Bパラメータ）でも、医療下流タスクでいくつかの大規模統合モデルを上回る。
H-LoRAを用いた三段階学習戦略は、混合トレーニングと比較してマルチタスク性能を一貫して向上させ、タスク間衝突関連の劣化を抑制する。
階層的視覚認識の分析は、抽象粒度の特徴が理解を助け、具体粒度の特徴が生成を支援することを示している。
四つのエキスパートと特定のランク設定を備えたH-LoRAは、他のPEFT手法（LoRA、MoELoRA）よりも学習時間が短く、性能も優れている。
HealthGPTは指示の変化下でのレポートからCXRへの生成など、定性的能力にも強みを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。