QUICK REVIEW

[論文レビュー] Auto-Encoding Knowledge Graph for Unsupervised Medical Report Generation

Fenglin Liu, Chenyu You|arXiv (Cornell University)|Nov 8, 2021

Multimodal Machine Learning Applications被引用数 64

ひとこと要約

本論文は KGAE を提案する。事前構築された知識グラフを共有潜在空間として利用し、画像と報告を橋渡しする無監督の医療報告生成モデルであり、画像と報告の対を必要とせず報告を生成できるだけでなく、半教師ありおよび教師ありの訓練もサポートする。

ABSTRACT

Medical report generation, which aims to automatically generate a long and coherent report of a given medical image, has been receiving growing research interests. Existing approaches mainly adopt a supervised manner and heavily rely on coupled image-report pairs. However, in the medical domain, building a large-scale image-report paired dataset is both time-consuming and expensive. To relax the dependency on paired data, we propose an unsupervised model Knowledge Graph Auto-Encoder (KGAE) which accepts independent sets of images and reports in training. KGAE consists of a pre-constructed knowledge graph, a knowledge-driven encoder and a knowledge-driven decoder. The knowledge graph works as the shared latent space to bridge the visual and textual domains; The knowledge-driven encoder projects medical images and reports to the corresponding coordinates in this latent space and the knowledge-driven decoder generates a medical report given a coordinate in this space. Since the knowledge-driven encoder and decoder can be trained with independent sets of images and reports, KGAE is unsupervised. The experiments show that the unsupervised KGAE generates desirable medical reports without using any image-report training pairs. Moreover, KGAE can also work in both semi-supervised and supervised settings, and accept paired images and reports in training. By further fine-tuning with image-report pairs, KGAE consistently outperforms the current state-of-the-art models on two datasets.

研究の動機と目的

医療報告生成における対のある画像-報告データセットへの依存を解消する。
独立した画像セットと報告セットを用いて医療報告を生成する無監督フレームワークを提案する。
視覚と言語の領域を橋渡しするために事前構築された医療知識グラフを活用する。
利用可能な場合には対を組み込んで半教師あり・教師ありの訓練を可能にする。
標準データセットで定量指標と人間評価を通じて有効性を示す。

提案手法

レポートコーパス（例：MIMIC-CXR）から共通の異常と正常を表すノード、共起から生じるエッジを持つ事前定義の医療知識グラフを構築する。
知識グラフをグラフ畳み込みネットワークで埋め込み、知識空間のノード埋め込み V' を得る。
知識グラフ上の注意機構を介して画像 (I) と報告 (R) を共通空間 G_I および G_R の潜在座標へ写す知識駆動型エンコーダー（KE）を開発し、共通の写像関数 F を共有する。
Knowledge-driven Attention (KA) を用いた Transformer ベースの長 sequence 生成と知識銀行 B を用いたデコード時の知識蒸留・参照を組み込んだ知識駆動型デコーダーを設計する（R -> G_R -> R 訓練；I -> G_I -> R 生成）。
無監督で R を G_R から再構成することにより (R -> G_R -> R) クロスエントロピー損失で訓練する。推論時には I から G_I を経て R を生成する (I -> G_I -> R)。
任意で画像-報告対を組み込んで I -> G_I -> R パイプラインを微調整し、半教師ありまたは教師ありの訓練を継続する。

実験結果

リサーチクエスチョン

RQ1対を持たない画像-報告データから共通の潜在知識グラフ空間を用いて医療報告生成は可能か。
RQ2知識駆動型エンコーダ/デコーダは独立した画像と報告データをどれだけうまく活用して視覚と言語のギャップを埋められるか。
RQ3無監督の KGAE の上に半教師ありまたは教師ありの微調整が、標準指標と臨床有効性の観点でどの程度影響を与えるか。
RQ4異なる知識グラフとその構成に対してアプローチはどれほど頑健か。
RQ5モデルは IU X-ray および MIMIC-CXR データセットで、さまざまな訓練設定において競合的または最先端の性能を達成するか。

主な発見

手法	年	対の比率	IU X-ray [9] B-1	IU X-ray [9] B-2	IU X-ray [9] B-3	IU X-ray [9] B-4	IU X-ray [9] M	IU X-ray [9] R-L	MIMIC-CXR [17] B-1	MIMIC-CXR [17] B-2	MIMIC-CXR [17] B-3	MIMIC-CXR [17] B-4	MIMIC-CXR [17] M	MIMIC-CXR [17] R-L
NIC	2015	100%	0.216	0.124	0.087	0.066	-	0.306	0.299	0.184	0.121	0.084	0.263
AdaAtt	2017	100%	0.220	0.127	0.089	0.068	-	0.308	0.299	0.185	0.124	0.088	0.266
Att2in	2017	100%	0.224	0.129	0.089	0.068	-	0.308	0.325	0.203	0.136	0.096	0.276
Transformer	2020	100%	0.396	0.254	0.179	0.135	0.164	0.342	0.314	0.192	0.127	0.090	0.125	0.265
M^2 Trans.	2020	100%	0.437	0.290	0.205	0.152	0.176	0.353	0.238	0.151	0.102	0.067	0.110	0.249
R2Gen	2020	100%	0.470	0.304	0.219	0.165	0.187	0.371	0.353	0.218	0.145	0.103	0.142	0.277
KGAE	Ours	0%	0.417	0.263	0.181	0.126	0.149	0.318	0.221	0.144	0.096	0.062	0.097	0.208
KGAE-Semi	60%	0%	0.497	0.320	0.232	0.171	0.189	0.379	0.352	0.219	0.149	0.108	0.147	0.290
KGAE-Supervised	100%	0%	0.512	0.327	0.240	0.179	0.195	0.383	0.369	0.231	0.156	0.118	0.153	0.295

無監督の KGAE は教師ありモデルと競合する結果を達成し、IU X-ray および MIMIC-CXR でいくつかのモデルを上回る。
半教師あり設定（60% 対）で KGAE はベースラインの教師ありモデルをすべての指標で上回り、対が極めて少ないデータでより大きな利得を示す。
完全な教師あり設定では、KGAE-Supervised は IU X-ray および MIMIC-CXR データセットにおいて自然言語生成および臨床有効性指標で新たな最先端結果を設定する。
人間評価は KGAE の変種が信頼性と網羅性で競争力を示し、半教師あり・完全教師ありの組み合わせで顕著な改善を示す。
知識グラフの違いに対してもアプローチは頑健で、デコード時の知識銀行メカニズムの恩恵を受ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。