[論文レビュー] Enhancing Text-to-Image Generation via End-Edge Collaborative Hybrid Super-Resolution
この論文は、エッジデバイス上での高画質T2I生成を高品質を保ちつつ高速化するため、領域認識型ハイブリッド超解像方針を備えたエッジ-エンド協調フレームワークを提案する。
Artificial Intelligence-Generated Content (AIGC) has made significant strides, with high-resolution text-to-image (T2I) generation becoming increasingly critical for improving users' Quality of Experience (QoE). Although resource-constrained edge computing adequately supports fast low-resolution T2I generations, achieving high-resolution output still faces the challenge of ensuring image fidelity at the cost of latency. To address this, we first investigate the performance of super-resolution (SR) methods for image enhancement, confirming a fundamental trade-off that lightweight learning-based SR struggles to recover fine details, while diffusion-based SR achieves higher fidelity at a substantial computational cost. Motivated by these observations, we propose an end-edge collaborative generation-enhancement framework. Upon receiving a T2I generation task, the system first generates a low-resolution image based on adaptively selected denoising steps and super-resolution scales at the edge side, which is then partitioned into patches and processed by a region-aware hybrid SR policy. This policy applies a diffusion-based SR model to foreground patches for detail recovery and a lightweight learning-based SR model to background patches for efficient upscaling, ultimately stitching the enhanced ones into the high-resolution image. Experiments show that our system reduces service latency by 33% compared with baselines while maintaining competitive image quality.
研究の動機と目的
- エッジにおける高解像度T2Iの高遅延課題と効率的な強化の必要性を動機づける。
- ターゲット解像度に基づいてSRスケールとノイズ除去ステップを選択する適応型コントローラを開発する。
- 詳細忠実度と効率のバランスを取る領域認識型ハイブリッドSR方針を導入する。
- フォアグラウンドディテールをエッジ上で拡散的に強化し、背景をデバイス上でアップスケールするエッジ端末協調を実現する。
提案手法
- エッジベースのT2Iモデルが、適応的に選択されたノイズ除去ステップとSRスケールを用いて低解像度画像を最初に生成する。
- 潜在特徴を領域認識型潜在パーティショナーによってフォアグラウンド(高分散)とバックグラウンド(低分散)パッチに分割する。
- エッジ上のフォアグラウンドパッチに対して拡散ベースのSRを適用し、ディテールを回復する。
- ユーザーデバイス上のバックグラウンドパッチに対して学習ベースのSRを適用し、効率的なアップスケーリングを行う。
- パッチをユーザーデバイス上で縫合し、フェザー加工されたオーバーラップを用いて最終的な高解像度画像を形成する。
実験結果
リサーチクエスチョン
- RQ1エッジベースのT2I生成において、適応的なSRスケールとノイズ除去ステップは品質と遅延をどのようにバランスできるか。
- RQ2領域認識型パーティショニングは、顕著な領域へ拡散ベースのSRを、背景へ学習ベースのSRを割り当てることで知覚忠実度を改善できるか。
- RQ3エッジ計算能力とパッチ割り当てが全体的なシステム有用性(品質対遅延)に与える影響はどの程度か。
主な発見
- 提案システムはベースラインと比較してサービス遅延を33%削減する。
- CogView3と比較して、特定のタスクでは画像品質の低下を1.6%にとどめつつ推論速度を8倍向上させる。
- 領域認識型ハイブリッドSR方針は、単一タイプSRアプローチと比べて、わずかな遅延増(約8.3秒)で有意な品質向上をもたらす。
- この手法は解像度間でベースラインを平均25%上回る有用性を達成する。
- MUSIQを用いてパッチ割り当て比を遅延と知覚忠実度のバランスに合わせ、0.25を本研究における最適比として選択している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。