QUICK REVIEW

[論文レビュー] Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing

Shruthi Bannur, Stephanie L. Hyland|arXiv (Cornell University)|Jan 11, 2023

Multimodal Machine Learning Applications被引用数 11

ひとこと要約

BioViL-T は prior images と reports を活用する多画像エンコーダを導入し、生物医療データの視覚–言語モデルを事前学習させ、報告生成、時系列画像分類、語句グラウンディングを含む時系列および非時系列タスクで最先端の成果を達成します。

ABSTRACT

Self-supervised learning in vision-language processing exploits semantic alignment between imaging and text modalities. Prior work in biomedical VLP has mostly relied on the alignment of single image and report pairs even though clinical notes commonly refer to prior images. This does not only introduce poor alignment between the modalities but also a missed opportunity to exploit rich self-supervision through existing temporal content in the data. In this work, we explicitly account for prior images and reports when available during both training and fine-tuning. Our approach, named BioViL-T, uses a CNN-Transformer hybrid multi-image encoder trained jointly with a text model. It is designed to be versatile to arising challenges such as pose variations and missing input images across time. The resulting model excels on downstream tasks both in single- and multi-image setups, achieving state-of-the-art performance on (I) progression classification, (II) phrase grounding, and (III) report generation, whilst offering consistent improvements on disease classification and sentence-similarity tasks. We release a novel multi-modal temporal benchmark dataset, MS-CXR-T, to quantify the quality of vision-language representations in terms of temporal semantics. Our experimental results show the advantages of incorporating prior images and reports to make most use of the data.

研究の動機と目的

生物医療の視覚–言語事前学習における時系列情報のずれや過小利用を動機づけ、対処する。
画像登録なしで、欠損/事前画像と空間的非整合を穏やかに処理する多画像CNN–TransformerエンコーダBioViL-Tを開発する。
画像誘導マスクド言語モデリングと対照学習目的を用いた時系列対応の自己監督で、画像とテキストの結合表現を学習する。
データ効率と静的/時系列の下流タスクへの広範な適用性を示し、MS-CXR-T を時系列VLPのベンチマークとして公開する。
前文脈を取り込むことが、報告生成、肺炎検出、語句グラウンディングを含む時系列・非時系列のタスクの両方を改善することを示す。

提案手法

BioViL-T を提案する：現在画像と prior 画像情報を統合する、明示的な画像登録を伴わないCNN–Transformerハイブリッド多画像エンコーダ。
CXR-BERT から初期化されたテキストエンコーダを使用し、画像とテキスト特徴を共有潜在空間に射影する。
画像誘導型マスクド言語モデリングとグローバル/ローカル対照損失（InfoNCE）で、跨モーダル表現を整合させるよう学習する。
prior 画像が利用可能な場合、現在画像特徴と進行特徴を連結して静的と時系列の画像特徴を分解する。そうでない場合は学習された欠損トークンを用いる。
現在の所見を文脈づけるため、専用のプロンプト/セパレータを介して前のレポートを用いて報告生成を条件付ける。
時系列データ（MS-CXR-T）を整備・キュレーションし、より高品質な多画像研究のデータセット整備を行う；静的および時系列タスクでゼロショット/少数ショットおよび完全教師あり設定を評価する。

実験結果

リサーチクエスチョン

RQ1時系列構造と事前イメージ情報を、下流タスクの改善を目的として生物医療の視覚–言語事前学習に組み込むにはどうすればよいか？
RQ2時系列整列を備えた多画像エンコーダは、時系列・非時系列の生物医療VLPタスクの双方で単一画像のベースラインを上回るか？
RQ3前のレポートと前画像という明示的な時系列コンテキストが、報告生成の品質と事実性に与える影響は？
RQ4時系列認識型事前学習は肺炎検出や語句グラウンディングのような静的タスクへ一般化できるか、またこの手法のデータ効率はどれくらいか？
RQ5胸部X線データの時系列意味論を視覚–言語モデルで最もよく捉えるベンチマークと指標は何か？

主な発見

方法	事前学習	前画像 / 前レポート	BLEU-4	ROUGE	CHEXBERT	TEM
NN Baseline (NN) CXR-RePaiR-2	BioViL	✗ / ✗	2.1	14.3	28.1	12.5
Baseline (NN) [9]	BioViL	✗ / ✗	3.7	20.0	28.3	11.1
Proposed (NN) BioViL-T	✓ / ✗	4.5	20.5	29.0	13.0
AR Baseline (AR) [9]	BioViL	✗ / ✗	7.5 p m 0.1	27.9 p m 0.1	29.3 p m 0.3	13.8 p m 0.1
Proposed BioViL-T	✓ / ✗	8.2 p m 0.1	28.7 p m 0.1	30.2 p m 0.7	16.0 p m 0.3
Proposed BioViL-T	✓ / ✓	9.2 p m 0.3	29.6 p m 0.1	31.7 p m 1.0	17.5 p m 0.1

BioViL-T は prior-image コンテキストを用いた時系列画像分類と報告生成タスクで最先端の性能を達成する。
prior 画像を用いた時系列事前学習は、ゼロショット/少数ショットおよび全データでの性能を複数タスクで向上させる。
前のレポートをプロンプトとして組み込むと報告生成の品質が向上し、特に時系列変化の記述が改善され、TEMスコアが高いほど変化の記述が良くなる。
静的タスクも時系列学習の恩恵を受け、非時系列ベースラインを上回る。
BioViL-T で学習されたテキスト埋め込みは時系列感度を高め、時系列文の類似度ベンチマークを改善する。
姿勢変化や欠損入力下での堅牢な性能には、静的/進行の特徴分解と時系列エンコーディングを備えた専用の多画像エンコーダが不可欠である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。