[논문 리뷰] PosterOmni: Generalized Artistic Poster Creation via Task Distillation and Unified Reward Feedback
PosterOmni는 작업별 전문가를 단일 모델로 증류하고 통합 보상 모델과 RL로 안내하여 이미지-포스터 생성에서 로컬 편집과 전역 창작을 일치시키며, 오픈 소스 최첨단 성능과 경쟁력 있는 독점 결과를 달성합니다.
Image-to-poster generation is a high-demand task requiring not only local adjustments but also high-level design understanding. Models must generate text, layout, style, and visual elements while preserving semantic fidelity and aesthetic coherence. The process spans two regimes: local editing, where ID-driven generation, rescaling, filling, and extending must preserve concrete visual entities; and global creation, where layout- and style-driven tasks rely on understanding abstract design concepts. These intertwined demands make image-to-poster a multi-dimensional process coupling entity-preserving editing with concept-driven creation under image-prompt control. To address these challenges, we propose PosterOmni, a generalized artistic poster creation framework that unlocks the potential of a base edit model for multi-task image-to-poster generation. PosterOmni integrates the two regimes, namely local editing and global creation, within a single system through an efficient data-distillation-reward pipeline: (i) constructing multi-scenario image-to-poster datasets covering six task types across entity-based and concept-based creation; (ii) distilling knowledge between local and global experts for supervised fine-tuning; and (iii) applying unified PosterOmni Reward Feedback to jointly align visual entity-preserving and aesthetic preference across all tasks. Additionally, we establish PosterOmni-Bench, a unified benchmark for evaluating both local editing and global creation. Extensive experiments show that PosterOmni significantly enhances reference adherence, global composition quality, and aesthetic harmony, outperforming all open-source baselines and even surpassing several proprietary systems.
연구 동기 및 목표
- 로컬 엔터티 보존 편집과 글로벌 디자인 개념을 결합하여 실용적인 포스터 생성을 촉진한다.
- 여섯 가지 포스터 작업에 대해 자동화된 다중 작업 데이터세트와 통합 학습 파이프라인을 개발한다.
- 작업 증류를 통해 로컬 및 글로벌 전문 지식을 단일 모델로 통합한다.
- 미학과 충실도를 최적화하기 위한 통합 보상 모델과 Omni-Edit 강화 학습을 도입한다.
- PosterOmni-Bench를 구축하여 다중 작업 이미지-포스터 생성을 일관되게 평가한다.
제안 방법
- 로컬 편집(확장, 채우기, 재스케일링, ID-일관성)과 글로벌 창작(스타일 주도, 레이아웃 주도)을 아우르는 여섯 가지 작업으로 이미지-포스터 생성을 분해한다.
- 여섯 가지 작업과 여섯 가지 테마를 다루는 PosterOmni-200K를 자동 데이터 생성으로 구축하고, 품질과 작업 정합성을 위한 다중 모드 필터링을 적용한다.
- 로컬 및 글로벌 전문가를 만들기 위한 작업별 SFT를 수행한 뒤 간섭을 피하기 위해 통합 PosterOmni-SFT 학생 모델로 증류한다.
- 모델 출력과 인간 판단을 이용한 Bradley-Terry 선호 학습으로 통합 PosterOmni 보상 모델을 훈련한다.
- Omni-Edit RL을 DiffusionNFT 스타일의 순방향 다이내믹 최적화와 R_omni의 보상으로 적용하여 로컬 편집 정확도와 글로벌 구성의 품질을 향상시킨다.
- 여섯 가지 작업에 걸친 다면 평가를 위해 Gemini-2.5-Pro를 사용한 PosterOmni-Bench로 평가한다.
실험 결과
연구 질문
- RQ1하나의 공개 프레임워크가 다양한 작업에서 정밀한 로컬 포스터 편집과 전반적인 글로벌 포스터 창작을 모두 수행할 수 있는가?
- RQ2작업 증류와 통합 보상 신호가 서로 다른 전문가 모델이나 혼합 작업 학습과 비교해 교차 작업 일반화 및 미학적 품질을 개선하는가?
- RQ3자동 데이터 생성과 다중 모드 필터링이 다중 작업 포스터 생성을 위한 고품질의 균형 잡힌 데이터셋을 만드는가?
- RQ4일반화된 보상으로 순방향 확산에 대한 강화 학습이 인간 선호도와의 출력 정렬에서 표준 지도 미세 조정보다 더 나은가?
- RQ5PosterOmni가 포스터 벤치마크에서 오픈 소스 기준선과 독점 시스템에 비해 어떤 차이를 보이는가?
주요 결과
| 모델 | 확장 | 채우기 | 재스케일링 | ID-일관성 | 레이아웃-드리븐 | 스타일-드리븐 | 종합 |
|---|---|---|---|---|---|---|---|
| ICEdit (Open) | 1.99 / – | 3.21/ – | 1.73 / – | 1.59 / – | 1.53 / – | 1.67 / – | 1.95 / – |
| Step1X-Edit (Open) | 3.04 / 3.67 | 4.35 / 4.21 | 1.60 / 1.75 | 1.70 / 2.14 | 1.63 / 1.82 | 1.57 / 1.79 | 2.31 / 2.56 |
| BAGEL (Open) | 2.33 / 2.84 | 2.77 / 2.67 | 1.77 / 1.40 | 1.92 / 2.29 | 2.34 / 3.03 | 1.85 / 2.34 | 2.15 / 2.43 |
| OmniGen2 (Open) | 2.56 / – | 2.32 / – | 1.61 / – | 3.25 / – | 2.22 / – | 1.84 / – | 2.59 / – |
| FLUX.1 Kontext (Open) | 3.12 / – | 3.61 / – | 3.16 / – | 3.39 / – | 3.03 / – | 2.88 / – | 3.20 / – |
| Qwen-Image-Edit (Open) | 4.28 / 4.24 | 3.95 / 3.79 | 3.40 / 3.54 | 3.06 / 3.37 | 3.44 / 2.97 | 2.91 / 2.83 | 3.51 / 3.46 |
| UniWorld-V2-Qwen-Image-Edit (Open) | 4.25 / 4.22 | 3.57 / 3.18 | 3.07 / 3.23 | 2.87 / 3.20 | 3.66 / 3.79 | 3.14 / 2.85 | 3.42 / 3.41 |
| Seedream-3.0 (Close) | 3.52 / 3.76 | 3.40 / 3.52 | 2.38 / 2.84 | 2.88 / 3.30 | 2.68 / 3.04 | 2.32 / 2.82 | 2.86 / 3.21 |
| Seedream-4.0 (Close) | 4.41 / 4.57 | 4.44 / 4.64 | 4.00 / 3.69 | 4.53 / 4.62 | 4.05 / 4.22 | 4.23 / 4.31 | 4.28 / 4.34 |
| PosterOmni (Ours) | 4.76 / 4.72 | 4.69 / 4.77 | 3.97 / 3.81 | 3.98 / 4.23 | 4.20 / 4.35 | 3.99 / 4.36 | 4.27 / 4.37 |
| vs Baseline (Qwen-Image-Edit) | +0.48 / +0.48 | +0.74 / +0.98 | +0.57 / +0.27 | ++0.92 / +0.86 | ++0.76 / +1.38 | ++1.08 / +1.53 | ++0.76 / +0.91 |
- PosterOmni는 로컬 편집 작업(확장, 채우기, 재스케일링, ID-일관성)에서 기본 편집기 및 오픈 소스 기준선에 비해 상당한 향상을 달성한다.
- PosterOmni는 전역 창작 작업(레이아웃 주도, 스타일 주도)에서도 강한 이득을 보이며 일부 독점 시스템에 근접하거나 이를 능가한다.
- 여섯 가지 작업에 걸쳐 PosterOmni는 모든 오픈 소스 기준선을 능가하고 Seedream-4.0과 같은 독점 모델에 필적하는 성과를 보인다.
- 특성 연구는 작업 증류와 통합 보상 피드백이 교차 작업 성능 및 미학적 정렬에 매우 중요하다는 것을 보여준다.
- Omni-Edit RL과 함께하는 통합 보상 피드백은 최고의 종합 점수를 낳아, 보상 모델만의 기준선이나 RL만의 기준선보다 우수하다.
- PosterOmni-Bench는 여섯 가지 주제와 두 가지 입력 설정(단일 이미지 및 다중 이미지)에서 견고한 평가를 입증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.