[論文レビュー] Generative AI for Synthetic Data Across Multiple Medical Modalities: A Systematic Review of Recent Developments and Challenges
2021–2023を対象とした、画像、EHR、テキスト、時系列データに跨る合成医療データのための生成モデル(GANs、VAEs、拡散モデル、LLMs)を総括的に系統的にレビューしたもので、生成技術、評価手法、特定されたギャップを網羅する。
This paper presents a comprehensive systematic review of generative models (GANs, VAEs, DMs, and LLMs) used to synthesize various medical data types, including imaging (dermoscopic, mammographic, ultrasound, CT, MRI, and X-ray), text, time-series, and tabular data (EHR). Unlike previous narrowly focused reviews, our study encompasses a broad array of medical data modalities and explores various generative models. Our search strategy queries databases such as Scopus, PubMed, and ArXiv, focusing on recent works from January 2021 to November 2023, excluding reviews and perspectives. This period emphasizes recent advancements beyond GANs, which have been extensively covered previously. The survey reveals insights from three key aspects: (1) Synthesis applications and purpose of synthesis, (2) generation techniques, and (3) evaluation methods. It highlights clinically valid synthesis applications, demonstrating the potential of synthetic data to tackle diverse clinical requirements. While conditional models incorporating class labels, segmentation masks and image translations are prevalent, there is a gap in utilizing prior clinical knowledge and patient-specific context, suggesting a need for more personalized synthesis approaches and emphasizing the importance of tailoring generative approaches to the unique characteristics of medical data. Additionally, there is a significant gap in using synthetic data beyond augmentation, such as for validation and evaluation of downstream medical AI models. The survey uncovers that the lack of standardized evaluation methodologies tailored to medical images is a barrier to clinical application, underscoring the need for in-depth evaluation approaches, benchmarking, and comparative studies to promote openness and collaboration.
研究の動機と目的
- 複数の医療データモダリティ(画像、EHR、テキスト、信号)にまたがる合成データ生成の範囲を調査する。
- 医療データ合成に用いられる生成モデルと条件付け戦略を特定する。
- 合成医療データの評価手法とベンチマークを分析する。
- 個別化合成と標準化された評価のギャップと提言を強調する。
- マルチモダリティの合成医療データ生成を追求する研究者への総合的なリソースを提供する。
提案手法
- データタイプとモダリティ(EHR、画像、テキスト、信号)およびそれらのサブモダリティを定義する。
- 医療データの生成器としてのGAN、VAE、拡散モデル、言語モデルをレビューする。
- モダリティ間・モダリティ内変換、属性ベース/テキストベース条件付けを含む合成応用を要約する。
- 有用性、忠実度、多様性、定性的評価、臨床検証、プライバシーといった評価次元を統合する。
- 2021年1月から2023年11月までのScopus、PubMed、arXivをPRISMAガイドに従って文献スクリーニングを行う。

実験結果
リサーチクエスチョン
- RQ1拡張以外の医療モダリティ全体で、合成データ生成の現在の応用と目的は何か?
- RQ2異なる医療データタイプとモダリティで最も頻繁に用いられる生成技術は何か?
- RQ3合成医療データはどのように評価され、どのような標準的なベンチマークや方法論が存在するか?
- RQ4個別化合成と臨床適用性のために、どのようなギャップ、課題、および提言が現れるか?
主な発見
- 本レビューは複数のモダリティ(画像、EHR、信号、テキスト)にまたがる249件の論文を含む。
- 条件付き生成と属性ベースの合成が一般的だが、個別化と患者固有の文脈は十分に探求されていない。
- 拡散モデルと言語モデルは医療データ合成においてGANを超えてますます使用されている。
- 下流の医療AIモデルの検証・評価に合成データを使用する際の著しいギャップがある。
- 医用画像に特化した標準化評価手法が欠如しており、臨床翻訳を妨げている。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。