QUICK REVIEW

[論文レビュー] Human Knowledge Integrated Multi-modal Learning for Single Source Domain Generalization

Ayan Banerjee, Kuntal Thakur|arXiv (Cornell University)|Mar 12, 2026

Domain Adaptation and Few-Shot Learning被引用数 0

ひとこと要約

論文は GenEval を提案する。専門家知識を LoRA 経由で基盤的医療モデルと統合し、単一ソース領域一般化の因果ギャップを埋める多モーダル vision-language フレームワークで、糖尿病網膜症と発作開始域検出における最先端の SDG 結果を達成する。

ABSTRACT

Generalizing image classification across domains remains challenging in critical tasks such as fundus image-based diabetic retinopathy (DR) grading and resting-state fMRI seizure onset zone (SOZ) detection. When domains differ in unknown causal factors, achieving cross-domain generalization is difficult, and there is no established methodology to objectively assess such differences without direct metadata or protocol-level information from data collectors, which is typically inaccessible. We first introduce domain conformal bounds (DCB), a theoretical framework to evaluate whether domains diverge in unknown causal factors. Building on this, we propose GenEval, a multimodal Vision Language Models (VLM) approach that combines foundational models (e.g., MedGemma-4B) with human knowledge via Low-Rank Adaptation (LoRA) to bridge causal gaps and enhance single-source domain generalization (SDG). Across eight DR and two SOZ datasets, GenEval achieves superior SDG performance, with average accuracy of 69.2% (DR) and 81% (SOZ), outperforming the strongest baselines by 9.4% and 1.8%, respectively.

研究の動機と目的

Critical medical tasks（DR グレーディングと rs-fMRI SOZ 検出）における単一ソース領域一般化の課題を動機付け、 formalize する。
Domain conformal bounds（DCB）を導入し、領域間の因果要因の乖離を定量化する。
SDCD ベースの知識 refinement を開発し、専門知識を用いて因果ギャップを定量化・減少させる。
LoRA 微調整済み MedGemma-4B を用いた refined 知識と画像データを統合する多モーダル・プロンプトFramework GenEval を提案し、SDG/MDG を実現。
GenEval を eight DR データセットと二つの SOZ データセットで評価し、クロスドメイン性能の向上を実証。

提案手法

専門知識とデータ駆動推定により、ドメイン内の因果要因とその相互関係を定義する。
Mahalanobis ベースのロバスト性 rho と conformal prediction を用いて domain conformal bounds（DCB）を適用し、ソース領域の適合区間を得て因果ギャップを定量化する。
SDCD を用いてターゲット領域のサンプルがソースの因果構造と一致する度合いを測定する。
SDCD 指導のアブレーションを通じて知識サブセットを選択し、SDCD を最大化するよう refine を実施。
refine した知識を画像と統合した多モーダル・プロンプトを作成し、LoRA による低ランク適応で MedGemma-4B のパラメータ効率的な特化を行う。
eight 件の DR データセットと二件の SOZ データセットで、 single- および multi-source 設定を評価し、強力なベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1 target ドメインがソースに存在しない新たな因果要因を導入するかを分布非依存・ドメイン conformal フレームワークで定量化できるか。
RQ2 LoRA 経由で医療ビジョン言語モデルと quantified な専門知識を統合することにより、DR および rs-fMRI SOZ タスクの単一ソース領域一般化が改善されるか。
RQ3 SDCD が医療ドメインデータセット間の SDG パフォーマンスにどのように関連するか。
RQ4 知識 refinement が SDCD およびクロスドメイン実験におけるモデル精度に与える影響は。

主な発見

GenEval は DR で平均 SDG 精度 69.2%、SOZ で 81% を達成し、最も強力なベースラインをそれぞれ 9.4%・1.8% 上回った。
SDCD はベースライン精度と正の単調関係を示し（Pearson r = 0.692, p = 0.02）。
アブレーション研究で、難しい知識成分（例：新生血管化シグナル）を除くと SDCD と精度が高くなることが示され、プロンプト refinement を導く。
GenEval は拡張された単一ソース SDG パフォーマンスを改善し、EyePACS をソースとする六つのターゲットで、DECO や GDRNet など従来法を SDG 設定で上回った。
MedGemma-4B の LoRA ベース微調整は、医療知識を維持しつつパラメータの約 2% で効率的な適応を実現。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。