[论文解读] PosterOmni: Generalized Artistic Poster Creation via Task Distillation and Unified Reward Feedback
PosterOmni 通过将任务特定专家蒸馏为单一模型并以统一奖励模型与 RL 指导,实现图像到海报生成的局部编辑与全局创作的统一,达到开源领域的最先进性能并与专有结果相媲美。
Image-to-poster generation is a high-demand task requiring not only local adjustments but also high-level design understanding. Models must generate text, layout, style, and visual elements while preserving semantic fidelity and aesthetic coherence. The process spans two regimes: local editing, where ID-driven generation, rescaling, filling, and extending must preserve concrete visual entities; and global creation, where layout- and style-driven tasks rely on understanding abstract design concepts. These intertwined demands make image-to-poster a multi-dimensional process coupling entity-preserving editing with concept-driven creation under image-prompt control. To address these challenges, we propose PosterOmni, a generalized artistic poster creation framework that unlocks the potential of a base edit model for multi-task image-to-poster generation. PosterOmni integrates the two regimes, namely local editing and global creation, within a single system through an efficient data-distillation-reward pipeline: (i) constructing multi-scenario image-to-poster datasets covering six task types across entity-based and concept-based creation; (ii) distilling knowledge between local and global experts for supervised fine-tuning; and (iii) applying unified PosterOmni Reward Feedback to jointly align visual entity-preserving and aesthetic preference across all tasks. Additionally, we establish PosterOmni-Bench, a unified benchmark for evaluating both local editing and global creation. Extensive experiments show that PosterOmni significantly enhances reference adherence, global composition quality, and aesthetic harmony, outperforming all open-source baselines and even surpassing several proprietary systems.
研究动机与目标
- 通过将局部实体保留编辑与全球设计概念结合,推动实用海报创作。
- 开发一个自动化的多任务数据集和六个海报任务的统一训练流程。
- 通过任务蒸馏将局部和全局编辑的专业知识融合为一个模型。
- 引入统一奖励模型与 Omni-Edit 强化学习以优化美感与保真度。
- 建立 PosterOmni-Bench,以在一致的基准下评估多任务图像到海报生成。
提出的方法
- 将图像到海报的创作分解为六个任务,覆盖局部编辑(扩展、填充、重缩放、身份驱动)和全局创作(风格驱动、布局驱动)。
- 通过自动数据生成建立 PosterOmni-200K,覆盖六个任务和六个主题,并对质量与任务对齐进行多模态筛选。
- 进行任务特定的 SFT 以创建局部与全局专家,然后蒸馏成统一的 PosterOmni-SFT 学生模型,避免干扰。
- 从模型输出和人工判断中训练统一的 PosterOmni 奖励模型,使用 Bradley-Terry 偏好学习。
- 通过将 DiffusionNFT 风格的前向动力学优化与 R_omni 的奖励相结合,应用 Omni-Edit RL 以提升局部编辑准确性与全局构图。
- 用 PosterOmni-Bench 进行评测,使用 Gemini-2.5-Pro 对六个任务进行多维评估。
实验结果
研究问题
- RQ1单一的开源框架是否能够在多样化任务中同时实现精准的局部海报编辑和整体全球海报创作?
- RQ2任务蒸馏加统一奖励信号是否能提升跨任务的泛化能力与美学质量,相较于独立专家模型或混任务训练?
- RQ3自动数据生成和多模态筛选是否能够为多任务海报生成提供高质量、平衡的数据集?
- RQ4在前向扩散上进行强化学习并使用统一奖励,是否比传统监督微调更能使输出更符合人类偏好?
- RQ5在综合的多任务海报基准上,PosterOmni 相较于开源基线和专有系统有何表现?
主要发现
| Model | Extending | Filling | Rescaling | Id-consis. | Layout-dri. | Style-dri. | Overall |
|---|---|---|---|---|---|---|---|
| ICEdit (Open) | 1.99 / – | 3.21/ – | 1.73 / – | 1.59 / – | 1.53 / – | 1.67 / – | 1.95 / – |
| Step1X-Edit (Open) | 3.04 / 3.67 | 4.35 / 4.21 | 1.60 / 1.75 | 1.70 / 2.14 | 1.63 / 1.82 | 1.57 / 1.79 | 2.31 / 2.56 |
| BAGEL (Open) | 2.33 / 2.84 | 2.77 / 2.67 | 1.77 / 1.40 | 1.92 / 2.29 | 2.34 / 3.03 | 1.85 / 2.34 | 2.15 / 2.43 |
| OmniGen2 (Open) | 2.56 / – | 2.32 / – | 1.61 / – | 3.25 / – | 2.22 / – | 1.84 / – | 2.59 / – |
| FLUX.1 Kontext (Open) | 3.12 / – | 3.61 / – | 3.16 / – | 3.39 / – | 3.03 / – | 2.88 / – | 3.20 / – |
| Qwen-Image-Edit (Open) | 4.28 / 4.24 | 3.95 / 3.79 | 3.40 / 3.54 | 3.06 / 3.37 | 3.44 / 2.97 | 2.91 / 2.83 | 3.51 / 3.46 |
| UniWorld-V2-Qwen-Image-Edit (Open) | 4.25 / 4.22 | 3.57 / 3.18 | 3.07 / 3.23 | 2.87 / 3.20 | 3.66 / 3.79 | 3.14 / 2.85 | 3.42 / 3.41 |
| Seedream-3.0 (Close) | 3.52 / 3.76 | 3.40 / 3.52 | 2.38 / 2.84 | 2.88 / 3.30 | 2.68 / 3.04 | 2.32 / 2.82 | 2.86 / 3.21 |
| Seedream-4.0 (Close) | 4.41 / 4.57 | 4.44 / 4.64 | 4.00 / 3.69 | 4.53 / 4.62 | 4.05 / 4.22 | 4.23 / 4.31 | 4.28 / 4.34 |
| PosterOmni (Ours) | 4.76 / 4.72 | 4.69 / 4.77 | 3.97 / 3.81 | 3.98 / 4.23 | 4.20 / 4.35 | 3.99 / 4.36 | 4.27 / 4.37 |
| vs Baseline (Qwen-Image-Edit) | +0.48 / +0.48 | +0.74 / +0.98 | +0.57 / +0.27 | ++0.92 / +0.86 | ++0.76 / +1.38 | ++1.08 / +1.53 | ++0.76 / +0.91 |
- 在局部编辑任务(Extending、Filling、Rescaling、ID-consistency)上,PosterOmni 相对于基础编辑器与开源基线取得显著改进。
- 在全局创作任务(Layout-driven、Style-driven)上,PosterOmni 同样展现出强劲提升,接近或超越部分专有系统。
- 在六个任务上,PosterOmni 超越所有开源基线,并在总体指标上与如 Seedream-4.0 等专有模型并驾齐驱。
- 消融研究显示任务蒸馏与统一奖励反馈对跨任务表现与美学对齐至关重要。
- 统一奖励反馈结合 Omni-Edit RL 取得最佳整体分数,超越仅奖励模型或仅 RL 的基线。
- PosterOmni-Bench 在六个主题与两种输入设置(单图像与多图像)上的评测表现稳健。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。