Skip to main content
QUICK REVIEW

[論文レビュー] SimGraph: A Unified Framework for Scene Graph-Based Image Generation and Editing

Thanh-Nhan Vo, Trong-Thuan Nguyen|arXiv (Cornell University)|Jan 29, 2026
Generative Adversarial Networks and Image Synthesis被引用数 0
ひとこと要約

SimGraphは、トークンベースの生成とシーングラフに guided diffusion 編集を組み合わせることで、1つのモデルでシーングラフベースの画像生成と編集を統合し、忠実度と効率を向上させます。

ABSTRACT

Recent advancements in Generative Artificial Intelligence (GenAI) have significantly enhanced the capabilities of both image generation and editing. However, current approaches often treat these tasks separately, leading to inefficiencies and challenges in maintaining spatial consistency and semantic coherence between generated content and edits. Moreover, a major obstacle is the lack of structured control over object relationships and spatial arrangements. Scene graph-based methods, which represent objects and their interrelationships in a structured format, offer a solution by providing greater control over composition and interactions in both image generation and editing. To address this, we introduce SimGraph, a unified framework that integrates scene graph-based image generation and editing, enabling precise control over object interactions, layouts, and spatial coherence. In particular, our framework integrates token-based generation and diffusion-based editing within a single scene graph-driven model, ensuring high-quality and consistent results. Through extensive experiments, we empirically demonstrate that our approach outperforms existing state-of-the-art methods.

研究の動機と目的

  • 複雑なシーンにおける空間的・意味的整合性を保つ共同生成/編集フレームワークの必要性を動機づける。
  • 生成と編集の両パスを制御する統一モデルを導入する。
  • シーングラフ由来のキャプションとプロンプトに基づくトークンベース生成と拡散ベースの編集を活用する。
  • 既存のシーングラフベース手法よりも忠実度、効率、意味的整合性を向上させることを示す。

提案手法

  • 入力画像から多言語LLMベースの抽出器(例:Qwen-VL)を用いてシーングラフを抽出する。
  • 生成・編集パイプラインを条件づけるためにシーングラフからキャプションCを構築する。
  • CLIPテキスト埋め込みを条件としてVisual AutoRegressive (VAR)モデルによるトークンベースの画像生成を実行する。
  • 背景を保ちつつ編集を適用するための共同ソース/ターゲット条件付けを備えた拡散ベースの画像編集を可能にする(LEDIT++ベースのアプローチ)。
  • Alg. 1からシーングラフの変更を基にソース/ターゲットプロンプトを作成し、保持内容と編集を分離する(Alg. 2)。
  • トークンベース生成(C)と拡散ベースの編集条件付けの両方を含む条件付きネガティブ対数尤度目的で訓練する。
Figure 1 : Illustration of SimGraph, which shares the same strategy for scene graph extraction using MLLM (e.g., Qwen-VL [ 1 ] ) (introduced in Sec. 4.1 ). In addition, our framework simultaneously integrates token-based image generation (introduced in Sec. 4.2 ) and diffusion model for image editin
Figure 1 : Illustration of SimGraph, which shares the same strategy for scene graph extraction using MLLM (e.g., Qwen-VL [ 1 ] ) (introduced in Sec. 4.1 ). In addition, our framework simultaneously integrates token-based image generation (introduced in Sec. 4.2 ) and diffusion model for image editin

実験結果

リサーチクエスチョン

  • RQ1生成と編集を単一のシーングラフ駆動フレームワークでいかに統合できるか?
  • RQ2シーングラフ由来のキャプションとプロンプトは生成と編集の両方をロバストで一貫性のある制御を提供できるか?
  • RQ3シーングラフに条件づけられたトークンベース生成と拡散ベースの編集は、既存手法より忠実度と意味的整合性を高めるか?
  • RQ4生成と編集を一つのパイプラインに統合することで得られる効率の向上はどれほどか?

主な発見

モデルAccuracyFidelity
SG2IM0.110.57
DiffSG0.010.13
SimGraph (Ours)0.320.87
  • SimGraphは、既存のシーングラフベース編集手法と比較して、忠実度を高めつつ競争力のある精度と効率を実現する。
  • EditValでSimGraphは精度0.32と忠実度0.87を達成し、忠実度の点でSGEditとDiffSGを上回る。
  • 定性的結果は、シーングラフからの一貫した生成と、文 string-guided 編集が文脈を保持して正確であることを示す。
  • 共同条件付けによる生成と編集の単一パイプライン化で計算オーバーヘッドを削減する。
  • 各画像あたりの編集所要時間は20-30秒で、従来の手法よりも大幅に高速。
Figure 2 : Illustration of image generation and editing from scene graphs using our framework. The left side shows the input image with its corresponding scene graph. The generated image on the right demonstrates the model’s ability to faithfully recreate the scene from the extracted scene graph. Th
Figure 2 : Illustration of image generation and editing from scene graphs using our framework. The left side shows the input image with its corresponding scene graph. The generated image on the right demonstrates the model’s ability to faithfully recreate the scene from the extracted scene graph. Th

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。