QUICK REVIEW

[論文レビュー] ViX-Ray: A Vietnamese Chest X-Ray Dataset for Vision-Language Models

Duy Vu Minh Nguyen, Chinh Thanh Truong|arXiv (Cornell University)|Mar 16, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

ViX-Ray は、専門家の所見と所見を伴う5,400サンプルのベトナム語胸部X線データセットを導入し、オープンソースVLMをGPT-4VおよびGeminiと対比してベンチマークを行い、ベトナム語放射線レポートの言語パターンを分析します。

ABSTRACT

Vietnamese medical research has become an increasingly vital domain, particularly with the rise of intelligent technologies aimed at reducing time and resource burdens in clinical diagnosis. Recent advances in vision-language models (VLMs), such as Gemini and GPT-4V, have sparked a growing interest in applying AI to healthcare. However, most existing VLMs lack exposure to Vietnamese medical data, limiting their ability to generate accurate and contextually appropriate diagnostic outputs for Vietnamese patients. To address this challenge, we introduce ViX-Ray, a novel dataset comprising 5,400 Vietnamese chest X-ray images annotated with expert-written findings and impressions from physicians at a major Vietnamese hospital. We analyze linguistic patterns within the dataset, including the frequency of mentioned body parts and diagnoses, to identify domain-specific linguistic characteristics of Vietnamese radiology reports. Furthermore, we fine-tune five state-of-the-art open-source VLMs on ViX-Ray and compare their performance to leading proprietary models, GPT-4V and Gemini. Our results show that while several models generate outputs partially aligned with clinical ground truths, they often suffer from low precision and excessive hallucination, especially in impression generation. These findings not only demonstrate the complexity and challenge of our dataset but also establish ViX-Ray as a valuable benchmark for evaluating and advancing vision-language models in the Vietnamese clinical domain.

研究の動機と目的

臨床利用のための詳細な専門家注釈を伴うベトナム語胸部X線マルチモーダルデータセットの必要性を動機づける。
画像、患者メタデータ、所見、およびベトナムの放射線科医による所見を含む新しいデータセット（ViX-Ray）を提供する。
公開型のベトナム語および多言語VLMの範囲を、所見生成と印象生成の点で専有モデルと対比してベンチマークする。
ベトナム語放射線レポートの言語パターン（身体部位と診断）を分析する。
三段階プロンプトと微調整を評価し、ベトナム語医療コンテキストにおけるモデル能力を評価する。

提案手法

ベトナムの病院から5,400枚の胸部X線画像を含む ViX-Ray を編成し、専門家の所見と所見で注釈を付ける。
統語解析を用いた所見と印象の言語分析を実施し、身体部位の言及と診断を抽出する。
サイズが7B未満のオープンソースのベトナム語および多言語VLMを ViX-Ray でファインチューニングし、GPT-4VおよびGeminiと比較して評価する。
三段階評価パイプラインを使用する：ステージ1は所見生成、ステージ2は印象生成、ステージ3はマルチターン生成（先に所見、その後印象）。
語彙指標（ROUGE、BLEU）と、GPT-4oを用いて分解された原子事実の精度/再現率ベースの事実評価を用いて出力を評価する。

実験結果

リサーチクエスチョン

RQ1ViX-Ray で訓練された場合、ベトナム語および多言語VLMは胸部X線画像から臨床的に関連する所見をどの程度生成できるか？
RQ2ベトナム語の医療文脈において、モデルが生成する印象は専門家の診断と比較してどの程度正確か？
RQ3マルチターン（所見に続いて印象）ファインチューニングは、臨床出力の事実正確性と語彙品質を改善するか？
RQ4オープンソースのベトナム語VLMは、ベトナム語放射線タスクにおいて専有モデル（GPT-4V、Gemini）と比較してどうか？

主な発見

Qwen2.5-VL-7B が評価パイプラインのすべての段階で最良の全体性能を達成。
多言語モデルは性能が異なり、Qwen2.5-VL-7B がしばしば他を上回る一方、InternVL2.5 は下回る。
マルチターン生成において、Qwen2.5-VL-7B や MiniCPM-V のような大規模モデルは語彙品質と事実性を向上させる。
GPT-4V と Gemini は高精度性が限定的で、臨床タスクでの出力を拒否することがあるなど、幻覚が多い。
ViX-Ray は精度の重要な課題と、集団特異的な医療VLMベンチマークの必要性を明らかにする。
段階別およびマルチターンのファインチューニングは、基準と比較してオープンソースのベトナム語VLM の臨床的有用性を高める。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。