QUICK REVIEW

[論文レビュー] Retrieval Augmented Chest X-Ray Report Generation using OpenAI GPT models

Mercy Ranjit, Gopinath Ganapathy|arXiv (Cornell University)|May 5, 2023

Topic Modeling被引用数 17

ひとこと要約

論文は Retrieval Augmented Generation (RAG) を、 contrastively pretrained vision-language encoder を用いて関連する放射線科テキストを取得し OpenAI GPT モデルで胸部X線の所見を生成することで、臨床指標を改善し幻覚を減らす。

ABSTRACT

We propose Retrieval Augmented Generation (RAG) as an approach for automated radiology report writing that leverages multimodally aligned embeddings from a contrastively pretrained vision language model for retrieval of relevant candidate radiology text for an input radiology image and a general domain generative model like OpenAI text-davinci-003, gpt-3.5-turbo and gpt-4 for report generation using the relevant radiology text retrieved. This approach keeps hallucinated generations under check and provides capabilities to generate report content in the format we desire leveraging the instruction following capabilities of these generative models. Our approach achieves better clinical metrics with a BERTScore of 0.2865 (Δ+ 25.88%) and Semb score of 0.4026 (Δ+ 6.31%). Our approach can be broadly relevant for different clinical settings as it allows to augment the automated radiology report generation process with content relevant for that setting while also having the ability to inject user intents and requirements in the prompts as part of the report generation process to modulate the content and format of the generated reports as applicable for that clinical setting.

研究の動機と目的

放射線科レポート生成を改善するための retrieval-augmented フレームワークを動機づける。
ドメインに適合したテキスト-画像埋め込みを活用して放射線科コンテンツの選択的取得を行う。
指示に従うプロンプトを備えた汎用GPTモデルを用いて、所見を望ましい形式で生成する。
構造化出力を生み出す能力を示し、臨床設定のニーズをコントロールする。
ベースラインと比較して幻覚の減少と臨床指標の改善を評価する。

提案手法

CXR-PRO の所見（レポートレベルおよび文レベル）から取得コーパスを構築する。
CXR-PRO/CXR-ReDonE データで訓練された contrastively pretrained vision-language モデル（ALBEF）を用いて画像とテキストの埋め込みを計算する。
ドット積類似度を用いて胸部X線画像に対して上位-K 件の類似文またはレポートを取得する。
retrieved context を用いて OpenAI LLMs（text-davinci-003, gpt-3.5-turbo, GPT-4）に放射線所見を生成させる。
コンテキストがトークン制限を超える場合に出力を反復的に精練する（ refine mechanism）。
病理学所見、位置情報、重症度、サイズなどの属性を促して構造化JSON出力を生成するオプション。

実験結果

リサーチクエスチョン

RQ1 Retrieval Augmented Generation は、生成された放射線所見の意味的整合性を、純粋な取得ベースの方法と比べて改善できるか？
RQ2 ドメインに適合した取得コーパスを汎用LLMと組み合わせると、放射線レポート生成における幻覚を減らすことができるか？
RQ3 K（取得レコード数）が BERTScore、S_emb、RadGraph F1 指標にどのような影響を与えるか？
RQ4 プロンプト（ゼロショット対 Few-shot）は、下流アプリケーションに適した構造化形式への出力を促進できるか？
RQ5 アプローチは臨床上重要なエンティティを保持しつつ、ノイズや関連性の低い内容を低減できるか？

主な発見

K	方法	BERTScore	S_emb	RadGraph F1
N/A	CXR-ReDonE	0.2482	0.3647	0.0921
1	CXR-RePaiR-Gen (text-davinci-003)	0.2600	0.3741	0.0839
1	CXR-ReDonE	0.2455	0.4029	0.0861
2	CXR-RePaiR-Gen (text-davinci-003)	0.2610	0.4116	0.0774
2	CXR-ReDonE	0.2465	0.3892	0.1045
2	CXR-RePaiR-Gen (text-davinci-003)	0.2753	0.4036	0.0926
3	CXR-ReDonE	0.2276	0.3787	0.1104
3	CXR-RePaiR-Gen (text-davinci-003)	0.2782	0.4030	0.1018
4	CXR-RePaiR-Gen (gpt-3.5-turbo)	0.2748	0.3973	0.0991
4	CXR-RePaiR-Gen (gpt-4)	0.2865	0.4026	0.1061

ALBEF ベースの取得と GPT モデルを用いた RAG は、CXR-PRO における取得のみのベースラインに比べて BERTScore を最大約 25.88% 改善する。
取得を用いた RAG は、トップ-K 取得でベースラインより S_emb を約 6.31% 改善する。
MS-CXR では、RAG はベースラインより BERTScore と S_emb を改善し、定性的には RadGraph F1 に匹敵する。
retrieved context によって生成を制約することで幻覚を減らすことができ、S_emb は生成所見と retrieved context の間で通常高くなる（平均 0.8466、テスト所見の約 87% が S_emb > 0.70）。
プロンプト設計により、病変、位置情報、重症度、サイズを含む構造化JSON出力を、自由テキストの所見に加えて生成できる。
RAG ベースの生成は、純粋な取得よりもノイズが少ない簡潔な所見を生み出しつつ、主要な臨床エンティティを保持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。