[論文レビュー] PosterOmni: Generalized Artistic Poster Creation via Task Distillation and Unified Reward Feedback
PosterOmniは、タスク専用の専門家を単一モデルへ蒸留し、統一報酬モデルとRLでガイドすることで、ローカル編集とグローバル創作を統合した画像→ポスター生成を実現し、オープンソースでの最先端性能とプロプライエタリ結果の競争力を達成する。
Image-to-poster generation is a high-demand task requiring not only local adjustments but also high-level design understanding. Models must generate text, layout, style, and visual elements while preserving semantic fidelity and aesthetic coherence. The process spans two regimes: local editing, where ID-driven generation, rescaling, filling, and extending must preserve concrete visual entities; and global creation, where layout- and style-driven tasks rely on understanding abstract design concepts. These intertwined demands make image-to-poster a multi-dimensional process coupling entity-preserving editing with concept-driven creation under image-prompt control. To address these challenges, we propose PosterOmni, a generalized artistic poster creation framework that unlocks the potential of a base edit model for multi-task image-to-poster generation. PosterOmni integrates the two regimes, namely local editing and global creation, within a single system through an efficient data-distillation-reward pipeline: (i) constructing multi-scenario image-to-poster datasets covering six task types across entity-based and concept-based creation; (ii) distilling knowledge between local and global experts for supervised fine-tuning; and (iii) applying unified PosterOmni Reward Feedback to jointly align visual entity-preserving and aesthetic preference across all tasks. Additionally, we establish PosterOmni-Bench, a unified benchmark for evaluating both local editing and global creation. Extensive experiments show that PosterOmni significantly enhances reference adherence, global composition quality, and aesthetic harmony, outperforming all open-source baselines and even surpassing several proprietary systems.
研究の動機と目的
- ローカルな实体保持編集をグローバルなデザイン概念と統合して、実践的なポスター作成を動機付ける。
- 6つのポスタータスクの自動データセットと統一トレーニングパイプラインを開発する。
- タスク蒸留を通じてローカルとグローバル編集の専門知識を単一モデルに統合する。
- 美学と忠実度を最適化する統一報酬モデルと Omni-Edit 強化学習を導入する。
- PosterOmni-Bench を確立して、マルチタスク画像→ポスター生成を一貫して評価する。
提案手法
- ローカル編集(Extending, Filling, Rescaling, Identity-driven)とグローバル創作(Style-driven, Layout-driven)を含む六つのタスクに分解して、画像→ポスター生成を構成する。
- 六つのタスクと六つのテーマを網羅する PosterOmni-200K を自動データ生成で構築し、品質とタスク適合性を多模态フィルタで整える。
- 局所および全体的な専門家を作成するタスク特化の SFT を実施し、干渉を避けるために統一された PosterOmni-SFT 学生モデルへ蒸留する。
- Bradley-Terry の嗜好学習を用いて、モデル出力と人間判断から統一報酬モデルを学習する。
- DiffusionNFT風の前方ダイナミクス最適化を報酬R_omniと統合して Omni-Edit RL を適用し、ローカル編集の精度とグローバル構図の両方を改善する。
- PosterOmni-Bench を用いた六つのタスクの多面的評価を Gemini-2.5-Pro で実施する。
実験結果
リサーチクエスチョン
- RQ1単一のオープンなフレームワークが、多様なタスクにわたって正確なローカル編集と全体的なグローバル創作の両方を実現できるか。
- RQ2タスク蒸留と統一報酬信号は、個別の専門家モデルや混在タスク訓練と比べて、汎化性と美的品質を向上させるか。
- RQ3自動データ生成と多模态フィルタリングは、マルチタスクポスター生成の高品質でバランスの取れたデータセットを生み出すか。
- RQ4統一報酬を用いた前方拡散の強化学習は、標準的な教師あり微調整より人間の嗜好と出力を良く一致させるか。
- RQ5PosterOmniは、オープンソースのベースラインやプロプライエタリシステムと、包括的なマルチタスクポスターベンチマークでどのように比較されるか。
主な発見
| Model | Extending | Filling | Rescaling | Id-consis. | Layout-dri. | Style-dri. | Overall |
|---|---|---|---|---|---|---|---|
| ICEdit (Open) | 1.99 / – | 3.21/ – | 1.73 / – | 1.59 / – | 1.53 / – | 1.67 / – | 1.95 / – |
| Step1X-Edit (Open) | 3.04 / 3.67 | 4.35 / 4.21 | 1.60 / 1.75 | 1.70 / 2.14 | 1.63 / 1.82 | 1.57 / 1.79 | 2.31 / 2.56 |
| BAGEL (Open) | 2.33 / 2.84 | 2.77 / 2.67 | 1.77 / 1.40 | 1.92 / 2.29 | 2.34 / 3.03 | 1.85 / 2.34 | 2.15 / 2.43 |
| OmniGen2 (Open) | 2.56 / – | 2.32 / – | 1.61 / – | 3.25 / – | 2.22 / – | 1.84 / – | 2.59 / – |
| FLUX.1 Kontext (Open) | 3.12 / – | 3.61 / – | 3.16 / – | 3.39 / – | 3.03 / – | 2.88 / – | 3.20 / – |
| Qwen-Image-Edit (Open) | 4.28 / 4.24 | 3.95 / 3.79 | 3.40 / 3.54 | 3.06 / 3.37 | 3.44 / 2.97 | 2.91 / 2.83 | 3.51 / 3.46 |
| UniWorld-V2-Qwen-Image-Edit (Open) | 4.25 / 4.22 | 3.57 / 3.18 | 3.07 / 3.23 | 2.87 / 3.20 | 3.66 / 3.79 | 3.14 / 2.85 | 3.42 / 3.41 |
| Seedream-3.0 (Close) | 3.52 / 3.76 | 3.40 / 3.52 | 2.38 / 2.84 | 2.88 / 3.30 | 2.68 / 3.04 | 2.32 / 2.82 | 2.86 / 3.21 |
| Seedream-4.0 (Close) | 4.41 / 4.57 | 4.44 / 4.64 | 4.00 / 3.69 | 4.53 / 4.62 | 4.05 / 4.22 | 4.23 / 4.31 | 4.28 / 4.34 |
| PosterOmni (Ours) | 4.76 / 4.72 | 4.69 / 4.77 | 3.97 / 3.81 | 3.98 / 4.23 | 4.20 / 4.35 | 3.99 / 4.36 | 4.27 / 4.37 |
| vs Baseline (Qwen-Image-Edit) | +0.48 / +0.48 | +0.74 / +0.98 | +0.57 / +0.27 | ++0.92 / +0.86 | ++0.76 / +1.38 | ++1.08 / +1.53 | ++0.76 / +0.91 |
- PosterOmniは、ローカル編集タスク(Extending, Filling, Rescaling, ID-consistency)でベースエディタとオープンソースのベースラインを大きく上回る。
- PosterOmniは、グローバル創作タスク(Layout-driven, Style-driven)でも強力な向上を示し、いくつかのプロプライエタリシステムに近づくか到達する。
- 六つのタスクにおいて、PosterOmniはすべてのオープンソースベースラインを上回り、Seedream-4.0のようなプロプライエタリモデルと競合する総合指標を達成する。
- アブレーション研究は、タスク蒸留と統一報酬フィードバックが跨タスク性能と美的整合性にとって重要であることを示す。
- 統一報酬フィードバックと Omni-Edit RL は、報酬モデルのみやRLのみのベースラインを上回る最良の総合スコアをもたらす。
- PosterOmni-Bench は、六つのテーマと二つの入力設定(単一画像と複数画像)で堅牢な評価を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。