[논문 리뷰] SimGraph: A Unified Framework for Scene Graph-Based Image Generation and Editing
SimGraph는 장면 그래프 기반의 이미지 생성 및 편집을 하나의 모델로 통합하여, 장면 그래프에 의해 안내되는 토큰 기반 생성과 확산 기반 편집을 결합함으로써 충실도와 효율성을 향상시킨다.
Recent advancements in Generative Artificial Intelligence (GenAI) have significantly enhanced the capabilities of both image generation and editing. However, current approaches often treat these tasks separately, leading to inefficiencies and challenges in maintaining spatial consistency and semantic coherence between generated content and edits. Moreover, a major obstacle is the lack of structured control over object relationships and spatial arrangements. Scene graph-based methods, which represent objects and their interrelationships in a structured format, offer a solution by providing greater control over composition and interactions in both image generation and editing. To address this, we introduce SimGraph, a unified framework that integrates scene graph-based image generation and editing, enabling precise control over object interactions, layouts, and spatial coherence. In particular, our framework integrates token-based generation and diffusion-based editing within a single scene graph-driven model, ensuring high-quality and consistent results. Through extensive experiments, we empirically demonstrate that our approach outperforms existing state-of-the-art methods.
연구 동기 및 목표
- 복잡한 장면에서 공간적・의미적 일관성을 보장하는 공동 생성/편집 프레임워크의 필요성을 제시한다.
- 생성 경로와 편집 경로를 모두 제어하기 위해 장면 그래프를 활용하는 통합 모델을 소개한다.
- 장면 그래프에서 파생된 자막과 프롬프트에 조건화된 토큰 기반 생성과 확산 기반 편집을 활용한다.
- 기존의 장면 그래프 기반 방법들에 비해 충실도, 효율성, 의미적 정합성이 향상되었음을 입증한다.
제안 방법
- 다국어 LLM 기반 추출기(예: Qwen-VL)를 사용해 입력 이미지에서 장면 그래프를 추출한다.
- 장면 그래프에서 생성 및 편집 파이프라인을 조건화하기 위한 캡션 C를 구성한다.
- CLIP 텍스트 임베딩으로 조건화된 Visual AutoRegressive (VAR) 모델을 통해 토큰 기반 이미지 생성을 수행한다.
- 배경을 보존하면서 편집을 적용하기 위해 소스/타깃 코디네이션을 공동으로 수행하는 확산 기반 이미지 편집을 가능하게 한다(LEDIT++ 기반 접근법).
- 장면 그래프 변경으로부터 소스/타깃 프롬프트를 만들어 보존된 콘텐츠와 편집을 구분한다(Alg. 1).
- 토큰 기반 생성(C)과 확산 기반 편집 조건화를 모두 포괄하는 조건부 음의 로그가능도 목표로 학습한다.
![Figure 1 : Illustration of SimGraph, which shares the same strategy for scene graph extraction using MLLM (e.g., Qwen-VL [ 1 ] ) (introduced in Sec. 4.1 ). In addition, our framework simultaneously integrates token-based image generation (introduced in Sec. 4.2 ) and diffusion model for image editin](https://ar5iv.labs.arxiv.org/html/2601.21498/assets/x1.png)
실험 결과
연구 질문
- RQ1생성과 편집을 단일 장면 그래프 주도 프레임워크 하에서 어떻게 통합할 수 있는가?
- RQ2장면 그래프에서 파생된 캡션과 프롬프트가 생성 및 편집 작업 모두에 대해 강력하고 일관된 제어를 제공할 수 있는가?
- RQ3장면 그래프에 조건화된 토큰 기반 생성과 확산 기반 편집이 기존 방법들보다 더 높은 충실도와 의미적 정합성을 제공하는가?
- RQ4생성과 편집을 하나의 파이프라인으로 결합할 때 달성할 수 있는 효율성 이점은 무엇인가?
주요 결과
| 모델 | 정확도 | 충실도 |
|---|---|---|
| SG2IM | 0.11 | 0.57 |
| DiffSG | 0.01 | 0.13 |
| SimGraph (Ours) | 0.32 | 0.87 |
- SimGraph는 기존의 장면 그래프 기반 편집 방법에 비해 충실도가 더 높고 정확도가 경쟁력 있으며 효율성이 향상되었다.
- EditVal에서 SimGraph는 accuracy 0.32 및 fidelity 0.87에 도달하여 충실도 측면에서 SGEdit 및 DiffSG를 능가한다.
- 정성적 결과는 장면 그래프에서의 일관된 생성과 맥락을 보존하는 정밀한 텍스트 유도 편집을 보여준다.
- 이 프레임워크는 생성과 편집을 하나의 파이프라인으로 결합하고 공동 조건화를 통해 계산 오버헤드를 줄인다.
- 편집은 이미지당 20-30초 소요되며, 일부 기존 방법보다 현저히 빠르다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.