Skip to main content
QUICK REVIEW

[논문 리뷰] PosterOmni: Generalized Artistic Poster Creation via Task Distillation and Unified Reward Feedback

Sixiang Chen, Jianyu Lai|arXiv (Cornell University)|2026. 02. 12.
Generative Adversarial Networks and Image Synthesis인용 수 0
한 줄 요약

PosterOmni는 작업별 전문가를 단일 모델로 증류하고 통합 보상 모델과 RL로 안내하여 이미지-포스터 생성에서 로컬 편집과 전역 창작을 일치시키며, 오픈 소스 최첨단 성능과 경쟁력 있는 독점 결과를 달성합니다.

ABSTRACT

Image-to-poster generation is a high-demand task requiring not only local adjustments but also high-level design understanding. Models must generate text, layout, style, and visual elements while preserving semantic fidelity and aesthetic coherence. The process spans two regimes: local editing, where ID-driven generation, rescaling, filling, and extending must preserve concrete visual entities; and global creation, where layout- and style-driven tasks rely on understanding abstract design concepts. These intertwined demands make image-to-poster a multi-dimensional process coupling entity-preserving editing with concept-driven creation under image-prompt control. To address these challenges, we propose PosterOmni, a generalized artistic poster creation framework that unlocks the potential of a base edit model for multi-task image-to-poster generation. PosterOmni integrates the two regimes, namely local editing and global creation, within a single system through an efficient data-distillation-reward pipeline: (i) constructing multi-scenario image-to-poster datasets covering six task types across entity-based and concept-based creation; (ii) distilling knowledge between local and global experts for supervised fine-tuning; and (iii) applying unified PosterOmni Reward Feedback to jointly align visual entity-preserving and aesthetic preference across all tasks. Additionally, we establish PosterOmni-Bench, a unified benchmark for evaluating both local editing and global creation. Extensive experiments show that PosterOmni significantly enhances reference adherence, global composition quality, and aesthetic harmony, outperforming all open-source baselines and even surpassing several proprietary systems.

연구 동기 및 목표

  • 로컬 엔터티 보존 편집과 글로벌 디자인 개념을 결합하여 실용적인 포스터 생성을 촉진한다.
  • 여섯 가지 포스터 작업에 대해 자동화된 다중 작업 데이터세트와 통합 학습 파이프라인을 개발한다.
  • 작업 증류를 통해 로컬 및 글로벌 전문 지식을 단일 모델로 통합한다.
  • 미학과 충실도를 최적화하기 위한 통합 보상 모델과 Omni-Edit 강화 학습을 도입한다.
  • PosterOmni-Bench를 구축하여 다중 작업 이미지-포스터 생성을 일관되게 평가한다.

제안 방법

  • 로컬 편집(확장, 채우기, 재스케일링, ID-일관성)과 글로벌 창작(스타일 주도, 레이아웃 주도)을 아우르는 여섯 가지 작업으로 이미지-포스터 생성을 분해한다.
  • 여섯 가지 작업과 여섯 가지 테마를 다루는 PosterOmni-200K를 자동 데이터 생성으로 구축하고, 품질과 작업 정합성을 위한 다중 모드 필터링을 적용한다.
  • 로컬 및 글로벌 전문가를 만들기 위한 작업별 SFT를 수행한 뒤 간섭을 피하기 위해 통합 PosterOmni-SFT 학생 모델로 증류한다.
  • 모델 출력과 인간 판단을 이용한 Bradley-Terry 선호 학습으로 통합 PosterOmni 보상 모델을 훈련한다.
  • Omni-Edit RL을 DiffusionNFT 스타일의 순방향 다이내믹 최적화와 R_omni의 보상으로 적용하여 로컬 편집 정확도와 글로벌 구성의 품질을 향상시킨다.
  • 여섯 가지 작업에 걸친 다면 평가를 위해 Gemini-2.5-Pro를 사용한 PosterOmni-Bench로 평가한다.

실험 결과

연구 질문

  • RQ1하나의 공개 프레임워크가 다양한 작업에서 정밀한 로컬 포스터 편집과 전반적인 글로벌 포스터 창작을 모두 수행할 수 있는가?
  • RQ2작업 증류와 통합 보상 신호가 서로 다른 전문가 모델이나 혼합 작업 학습과 비교해 교차 작업 일반화 및 미학적 품질을 개선하는가?
  • RQ3자동 데이터 생성과 다중 모드 필터링이 다중 작업 포스터 생성을 위한 고품질의 균형 잡힌 데이터셋을 만드는가?
  • RQ4일반화된 보상으로 순방향 확산에 대한 강화 학습이 인간 선호도와의 출력 정렬에서 표준 지도 미세 조정보다 더 나은가?
  • RQ5PosterOmni가 포스터 벤치마크에서 오픈 소스 기준선과 독점 시스템에 비해 어떤 차이를 보이는가?

주요 결과

모델확장채우기재스케일링ID-일관성레이아웃-드리븐스타일-드리븐종합
ICEdit (Open)1.99 / –3.21/ –1.73 / –1.59 / –1.53 / –1.67 / –1.95 / –
Step1X-Edit (Open)3.04 / 3.674.35 / 4.211.60 / 1.751.70 / 2.141.63 / 1.821.57 / 1.792.31 / 2.56
BAGEL (Open)2.33 / 2.842.77 / 2.671.77 / 1.401.92 / 2.292.34 / 3.031.85 / 2.342.15 / 2.43
OmniGen2 (Open)2.56 / –2.32 / –1.61 / –3.25 / –2.22 / –1.84 / –2.59 / –
FLUX.1 Kontext (Open)3.12 / –3.61 / –3.16 / –3.39 / –3.03 / –2.88 / –3.20 / –
Qwen-Image-Edit (Open)4.28 / 4.243.95 / 3.793.40 / 3.543.06 / 3.373.44 / 2.972.91 / 2.833.51 / 3.46
UniWorld-V2-Qwen-Image-Edit (Open)4.25 / 4.223.57 / 3.183.07 / 3.232.87 / 3.203.66 / 3.793.14 / 2.853.42 / 3.41
Seedream-3.0 (Close)3.52 / 3.763.40 / 3.522.38 / 2.842.88 / 3.302.68 / 3.042.32 / 2.822.86 / 3.21
Seedream-4.0 (Close)4.41 / 4.574.44 / 4.644.00 / 3.694.53 / 4.624.05 / 4.224.23 / 4.314.28 / 4.34
PosterOmni (Ours)4.76 / 4.724.69 / 4.773.97 / 3.813.98 / 4.234.20 / 4.353.99 / 4.364.27 / 4.37
vs Baseline (Qwen-Image-Edit)+0.48 / +0.48+0.74 / +0.98+0.57 / +0.27++0.92 / +0.86++0.76 / +1.38++1.08 / +1.53++0.76 / +0.91
  • PosterOmni는 로컬 편집 작업(확장, 채우기, 재스케일링, ID-일관성)에서 기본 편집기 및 오픈 소스 기준선에 비해 상당한 향상을 달성한다.
  • PosterOmni는 전역 창작 작업(레이아웃 주도, 스타일 주도)에서도 강한 이득을 보이며 일부 독점 시스템에 근접하거나 이를 능가한다.
  • 여섯 가지 작업에 걸쳐 PosterOmni는 모든 오픈 소스 기준선을 능가하고 Seedream-4.0과 같은 독점 모델에 필적하는 성과를 보인다.
  • 특성 연구는 작업 증류와 통합 보상 피드백이 교차 작업 성능 및 미학적 정렬에 매우 중요하다는 것을 보여준다.
  • Omni-Edit RL과 함께하는 통합 보상 피드백은 최고의 종합 점수를 낳아, 보상 모델만의 기준선이나 RL만의 기준선보다 우수하다.
  • PosterOmni-Bench는 여섯 가지 주제와 두 가지 입력 설정(단일 이미지 및 다중 이미지)에서 견고한 평가를 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.