QUICK REVIEW

[논문 리뷰] PosterOmni: Generalized Artistic Poster Creation via Task Distillation and Unified Reward Feedback

Sixiang Chen, Jianyu Lai|arXiv (Cornell University)|2026. 02. 12.

Generative Adversarial Networks and Image Synthesis인용 수 0

한 줄 요약

PosterOmni는 작업별 전문가를 단일 모델로 증류하고 통합 보상 모델과 RL로 안내하여 이미지-포스터 생성에서 로컬 편집과 전역 창작을 일치시키며, 오픈 소스 최첨단 성능과 경쟁력 있는 독점 결과를 달성합니다.

ABSTRACT

Image-to-poster generation is a high-demand task requiring not only local adjustments but also high-level design understanding. Models must generate text, layout, style, and visual elements while preserving semantic fidelity and aesthetic coherence. The process spans two regimes: local editing, where ID-driven generation, rescaling, filling, and extending must preserve concrete visual entities; and global creation, where layout- and style-driven tasks rely on understanding abstract design concepts. These intertwined demands make image-to-poster a multi-dimensional process coupling entity-preserving editing with concept-driven creation under image-prompt control. To address these challenges, we propose PosterOmni, a generalized artistic poster creation framework that unlocks the potential of a base edit model for multi-task image-to-poster generation. PosterOmni integrates the two regimes, namely local editing and global creation, within a single system through an efficient data-distillation-reward pipeline: (i) constructing multi-scenario image-to-poster datasets covering six task types across entity-based and concept-based creation; (ii) distilling knowledge between local and global experts for supervised fine-tuning; and (iii) applying unified PosterOmni Reward Feedback to jointly align visual entity-preserving and aesthetic preference across all tasks. Additionally, we establish PosterOmni-Bench, a unified benchmark for evaluating both local editing and global creation. Extensive experiments show that PosterOmni significantly enhances reference adherence, global composition quality, and aesthetic harmony, outperforming all open-source baselines and even surpassing several proprietary systems.

연구 동기 및 목표

로컬 엔터티 보존 편집과 글로벌 디자인 개념을 결합하여 실용적인 포스터 생성을 촉진한다.
여섯 가지 포스터 작업에 대해 자동화된 다중 작업 데이터세트와 통합 학습 파이프라인을 개발한다.
작업 증류를 통해 로컬 및 글로벌 전문 지식을 단일 모델로 통합한다.
미학과 충실도를 최적화하기 위한 통합 보상 모델과 Omni-Edit 강화 학습을 도입한다.
PosterOmni-Bench를 구축하여 다중 작업 이미지-포스터 생성을 일관되게 평가한다.

제안 방법

로컬 편집(확장, 채우기, 재스케일링, ID-일관성)과 글로벌 창작(스타일 주도, 레이아웃 주도)을 아우르는 여섯 가지 작업으로 이미지-포스터 생성을 분해한다.
여섯 가지 작업과 여섯 가지 테마를 다루는 PosterOmni-200K를 자동 데이터 생성으로 구축하고, 품질과 작업 정합성을 위한 다중 모드 필터링을 적용한다.
로컬 및 글로벌 전문가를 만들기 위한 작업별 SFT를 수행한 뒤 간섭을 피하기 위해 통합 PosterOmni-SFT 학생 모델로 증류한다.
모델 출력과 인간 판단을 이용한 Bradley-Terry 선호 학습으로 통합 PosterOmni 보상 모델을 훈련한다.
Omni-Edit RL을 DiffusionNFT 스타일의 순방향 다이내믹 최적화와 R_omni의 보상으로 적용하여 로컬 편집 정확도와 글로벌 구성의 품질을 향상시킨다.
여섯 가지 작업에 걸친 다면 평가를 위해 Gemini-2.5-Pro를 사용한 PosterOmni-Bench로 평가한다.

실험 결과

연구 질문

RQ1하나의 공개 프레임워크가 다양한 작업에서 정밀한 로컬 포스터 편집과 전반적인 글로벌 포스터 창작을 모두 수행할 수 있는가?
RQ2작업 증류와 통합 보상 신호가 서로 다른 전문가 모델이나 혼합 작업 학습과 비교해 교차 작업 일반화 및 미학적 품질을 개선하는가?
RQ3자동 데이터 생성과 다중 모드 필터링이 다중 작업 포스터 생성을 위한 고품질의 균형 잡힌 데이터셋을 만드는가?
RQ4일반화된 보상으로 순방향 확산에 대한 강화 학습이 인간 선호도와의 출력 정렬에서 표준 지도 미세 조정보다 더 나은가?
RQ5PosterOmni가 포스터 벤치마크에서 오픈 소스 기준선과 독점 시스템에 비해 어떤 차이를 보이는가?

주요 결과

모델	확장	채우기	재스케일링	ID-일관성	레이아웃-드리븐	스타일-드리븐	종합
ICEdit (Open)	1.99 / –	3.21/ –	1.73 / –	1.59 / –	1.53 / –	1.67 / –	1.95 / –
Step1X-Edit (Open)	3.04 / 3.67	4.35 / 4.21	1.60 / 1.75	1.70 / 2.14	1.63 / 1.82	1.57 / 1.79	2.31 / 2.56
BAGEL (Open)	2.33 / 2.84	2.77 / 2.67	1.77 / 1.40	1.92 / 2.29	2.34 / 3.03	1.85 / 2.34	2.15 / 2.43
OmniGen2 (Open)	2.56 / –	2.32 / –	1.61 / –	3.25 / –	2.22 / –	1.84 / –	2.59 / –
FLUX.1 Kontext (Open)	3.12 / –	3.61 / –	3.16 / –	3.39 / –	3.03 / –	2.88 / –	3.20 / –
Qwen-Image-Edit (Open)	4.28 / 4.24	3.95 / 3.79	3.40 / 3.54	3.06 / 3.37	3.44 / 2.97	2.91 / 2.83	3.51 / 3.46
UniWorld-V2-Qwen-Image-Edit (Open)	4.25 / 4.22	3.57 / 3.18	3.07 / 3.23	2.87 / 3.20	3.66 / 3.79	3.14 / 2.85	3.42 / 3.41
Seedream-3.0 (Close)	3.52 / 3.76	3.40 / 3.52	2.38 / 2.84	2.88 / 3.30	2.68 / 3.04	2.32 / 2.82	2.86 / 3.21
Seedream-4.0 (Close)	4.41 / 4.57	4.44 / 4.64	4.00 / 3.69	4.53 / 4.62	4.05 / 4.22	4.23 / 4.31	4.28 / 4.34
PosterOmni (Ours)	4.76 / 4.72	4.69 / 4.77	3.97 / 3.81	3.98 / 4.23	4.20 / 4.35	3.99 / 4.36	4.27 / 4.37
vs Baseline (Qwen-Image-Edit)	+0.48 / +0.48	+0.74 / +0.98	+0.57 / +0.27	++0.92 / +0.86	++0.76 / +1.38	++1.08 / +1.53	++0.76 / +0.91

PosterOmni는 로컬 편집 작업(확장, 채우기, 재스케일링, ID-일관성)에서 기본 편집기 및 오픈 소스 기준선에 비해 상당한 향상을 달성한다.
PosterOmni는 전역 창작 작업(레이아웃 주도, 스타일 주도)에서도 강한 이득을 보이며 일부 독점 시스템에 근접하거나 이를 능가한다.
여섯 가지 작업에 걸쳐 PosterOmni는 모든 오픈 소스 기준선을 능가하고 Seedream-4.0과 같은 독점 모델에 필적하는 성과를 보인다.
특성 연구는 작업 증류와 통합 보상 피드백이 교차 작업 성능 및 미학적 정렬에 매우 중요하다는 것을 보여준다.
Omni-Edit RL과 함께하는 통합 보상 피드백은 최고의 종합 점수를 낳아, 보상 모델만의 기준선이나 RL만의 기준선보다 우수하다.
PosterOmni-Bench는 여섯 가지 주제와 두 가지 입력 설정(단일 이미지 및 다중 이미지)에서 견고한 평가를 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.