Skip to main content
QUICK REVIEW

[논문 리뷰] Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing

Runze He, Yiji Cheng|arXiv (Cornell University)|2026. 01. 08.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

Re-Align은 이미지 생성 및 편집의 구조화된 추론과 IC-CoT(In-Context Chain-of-Thought)를 도입하고 대체 보상 및 다양성 전략을 결합하여 ICGE 성능을 개선합니다. 유사한 모델 중 ICGE 벤치마크에서 최첨단 결과를 달성합니다.

ABSTRACT

In-context image generation and editing (ICGE) enables users to specify visual concepts through interleaved image-text prompts, demanding precise understanding and faithful execution of user intent. Although recent unified multimodal models exhibit promising understanding capabilities, these strengths often fail to transfer effectively to image generation. We introduce Re-Align, a unified framework that bridges the gap between understanding and generation through structured reasoning-guided alignment. At its core lies the In-Context Chain-of-Thought (IC-CoT), a structured reasoning paradigm that decouples semantic guidance and reference association, providing clear textual target and mitigating confusion among reference images. Furthermore, Re-Align introduces an effective RL training scheme that leverages a surrogate reward to measure the alignment between structured reasoning text and the generated image, thereby improving the model's overall performance on ICGE tasks. Extensive experiments verify that Re-Align outperforms competitive methods of comparable model scale and resources on both in-context image generation and editing tasks.

연구 동기 및 목표

  • ICGE를 위한 이해와 생성을 통합 프레임워크로 연결합니다.
  • In-Context Chain-of-Thought(IC-CoT)를 도입하여 의미 지침과 참조 연관성을 분리합니다.
  • 정책 최적화를 안정시키기 위한 대리 보상과 추론에 의한 다양성을 개발합니다.
  • IC-CoT 주석을 가진 고품질의 ICGE 데이터셋 Re-Align-410K를 구성합니다.
  • ICGE 벤치마크에서 경쟁력 있는 자원으로 최첨단 성능을 시연합니다.

제안 방법

  • IC-CoT를 제안하여 추론을 의미 지침(예상 캡션)과 참조 연관성(각 참조 이미지의 역할)으로 분해합니다.
  • IC-CoT에 조건화된 BAGEL 스타일 확산 기반 생성에 따른 Rectified Flow를 통해 이미지 생성을 학습합니다.
  • 생성된 이미지 x와 IC-CoT에서 추출된 캡션 c 간의 CLIP 이미지-텍스트 유사성에 기반한 대리 보상 s(x,c)를 사용합니다.
  • 학습 중 보상 신호의 분산을 증가시키기 위해 추론에 의한 다양성 전략을 도입합니다.
  • IC-CoT와 생성된 이미지 간의 정렬을 최적화하기 위해 Group Relative Policy Optimization(GRPO)을 사용하며, 지도 학습 미세조정(SFT)과 RL 기반 정렬의 2단계 학습을 수행합니다.
  • 다중 이미지 ICGE 작업과 IC-CoT 주석을 포함한 Re-Align-410K를 자동으로 구성합니다.

실험 결과

연구 질문

  • RQ1구조화된 추론(IC-CoT)이 ICGE 작업에서 이해 프롬프트와 이미지 생성 간의 정렬을 어떻게 개선할 수 있는가?
  • RQ2캡션-이미지 정렬에 기반한 대리 보상이 IC-CoT 가이드하에 생성/편집 품질을 개선하는가?
  • RQ3추론에 의한 다양성 전략이 ICGE에 대한 강화 학습을 안정화하는가?
  • RQ4주제, 속성, 장면 기반 작업 전반에서 IC-CoT가 생성 및 편집 성능에 미치는 영향은 무엇인가?
  • RQ5Re-Align이 비슷한 모델 규모와 자원에서 기존 방법과 비교해 ICGE 벤치마크에서 어떤 차이를 보이는가?

주요 결과

  • Re-Align은 비교 가능한 모델 간의 인-컨텍스트 이미지 생성 및 편집 작업에서 최첨단 성능을 달성합니다.
  • IC-CoT는 명시적 의미 지침과 참조 역할을 제공하여 참조 혼란을 줄이고 생성 충실도를 개선합니다.
  • 생성 이미지와 캡션 정렬에 기반한 대리 보상은 추론과 생성 이미지 간의 정렬을 개선해 최적화를 돕습니다.
  • 추론에 의한 다양성은 보상 신호의 분산을 증가시키고 학습을 안정화시켜 전반적인 성능을 향상시킵니다.
  • OmniContext 및 DreamOmni2Bench 벤치마크에서 Re-Align은 BAGEL, OmniGen2, Echo-4o, Qwen-Image-Edit-2509, DreamOmni2 등과 비교해 대부분의 지표에서 우수한 성과를 보였습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.