[論文レビュー] CIAR: Interval-based Collaborative Decoding for Image Generation Acceleration
CIARはオンデバイスの区間ベース不確実性定量器とクラウド強化デコーディングを導入し、自己回帰型画像生成を高速化。約2.18×のスピードアップとクラウドリクエストを70%削減しつつ画像品質を維持。
Auto-regressive (AR) models have recently made notable progress in image generation, achieving performance comparable to diffusion-based approaches. However, their computational intensity and sequential nature impede on-device deployment, causing disruptive latency. We address this via a cloud-device collaboration framework \textbf{CIAR}, which utilizes on-device self-verification to handle two key properties of visual synthesis: \textit{the vast token vocabulary} required for high-fidelity images and \textit{inherent spatial redundancy} which leads to extreme predictability in homogeneous regions, while object boundaries exhibit high uncertainty. Uniform verification wastes resources on such redundant tokens. Our solution centers on an on-device token uncertainty quantifier, which adopts continuous probability intervals to accelerate processing and make it feasible for large visual vocabularies instead of conventional discrete solution sets. Additionally, we incorporate a Interval-enhanced decoding module to further speed up decoding while maintaining visual fidelity and semantic consistency via a distribution alignment training strategy. Extensive experiments demonstrate that CIAR achieves a 2.18x speed-up and reduces cloud requests by 70\%, while preserving image quality compared to existing methods.
研究の動機と目的
- 高解像度の視覚ARモデルに向けたオンデバイスでの加速を、巨大なトークン語彙と空間的冗長性を伴う場合でも実現する。
- トークンを選択的に検証し不要なクラウド通信を減らすための区間ベース不確実性定量器(Inter-Head)を開発する。
- デバイスとクラウドの出力の整合性を保つ区間強化クラウドデコーディングと分布整合化学習戦略を設計する。
- 標準ベンチマークで視覚忠実度を損なうことなく、速度アップとクラウド使用を削減することを実証する。
提案手法
- 各トークンの確率区間を形成する中心/logitsと半径を出力するオンデバイスのInterval Head (Inter-Head)を提案する。
- 確率区間 p_t^l, p_t^u を定義し、総区間幅と分散を組み合わせた区間ベース不確実性スコアを定義する。
- デコード時にデバイスとクラウド分布を整合させるプレフィックス注入とintervalFeature条件付けを用いたクラウド強化デコーディングを導入する。
- Inter-Headをクラウドモデルとの分布整合化のために訓練するため、区間対応のDistributionally Robust Optimization (Inter-DRO) 損失を採用する。
- クラウドデコーダーへの条件付けとして区間特徴プロジェクションを実装し、ドリフトを抑制し一貫性を向上させる。
- 複数のクラウドモデル(LlamaGen-XL 段階 I/II、Anole)で、MS-COCOキャプションをプロンプトとして用いた広範な実験を実施する。

実験結果
リサーチクエスチョン
- RQ1オンデバイスの区間ベース不確実性推定は、クラウド-デバイスAR画像生成における冗長な検証をどのように削減できるか?
- RQ2分布整合を伴う区間強化デコーディングは、クラウドとの相互作用を減らしつつ画像忠実度を維持できるか?
- RQ3CIARにおけるクラウド-prefix注入時のプレフィックス導入率と待機時間のトレードオフはどのようになるか?
- RQ4大規模トークン語彙に対して、連続区間ベース不確実性と離散的解列挙の比較で遅延と品質はどう変わるか?
主な発見
| Metric | Models | Methods | CLIP (↑) | FID (↓) | F1(↑) | HPSv2(↑) | Latency(s) | steps | Cloud Call |
|---|---|---|---|---|---|---|---|---|---|
| Base | LlamaGen(Stage I) | Base | 0.3161 | 23.6900 | 0.6097 | 22.74 | x1.00 | x1.00 | 100.00% |
| Eagle2 | LlamaGen(Stage I) | Ours | 0.3159 | 24.2459 | 0.5997 | 22.48 | x2.53 | x3.00 | 30.44% |
| Lantern | LlamaGen(Stage I) | Ours | 0.3159 | 24.5828 | 0.5796 | 22.03 | x1.70 | x2.05 | 52.34% |
| Entropy-Lens | LlamaGen(Stage I) | Ours | 0.3132 | 24.2459? | 0.5997? | 22.48 | x2.53 | x3.00 | 30.44% |
| CoDe (N = 0.3) | LlamaGen(Stage I) | Ours | 0.2822 | 40.0709 | 0.5350 | 23.84 | x1.00 | x1.00 | 100.00% |
| LlamaGen(Stage I) | Ours | 0.3159 | 24.2459 | 0.5997 | 22.48 | x2.53 | x3.00 | 30.44% | |
| Base | LlamaGen(Stage II) | Base | 0.2822 | 40.0709 | 0.5350 | 23.84 | x1.00 | x1.00 | 100.00% |
| Eagle2 | LlamaGen(Stage II) | Ours | 0.3159 | 23.7103 | 0.6117 | 22.88 | x1.02 | x1.19 | 84.55% |
| Lantern | LlamaGen(Stage II) | Ours | 0.3181 | 23.9510 | 0.5969 | 22.92 | x1.25 | x1.81 | 50.35% |
| Entropy-Lens | LlamaGen(Stage II) | Ours | 0.2966 | 32.3533 | 0.5600 | 22.34 | x1.57 | x2.53 | 39.86% |
| CoDe (N = 0.3) | LlamaGen(Stage II) | Ours | 0.2781 | 36.7520 | 0.5597 | 21.94 | x1.55 | x2.89 | 30.00% |
| Anole | Anole | Ours | 0.3171 | 23.8593 | 0.5970 | 23.14 | x1.87 | x3.29 | 29.88% |
| Base | Anole | Base | 0.3215 | 19.9455 | 0.6544 | 23.52 | x1.00 | x1.00 | 100.00% |
| Eagle2 | Anole | Ours | 0.3159 | 23.7103 | 0.6117 | 22.88 | x1.02 | x1.09 | 91.98% |
| Lantern | Anole | Ours | 0.3181 | 23.9510 | 0.5969 | 22.92 | x1.25 | x1.81 | 50.35% |
| Entropy-Lens | Anole | Ours | 0.2966 | 32.3533 | 0.5600 | 22.34 | x1.57 | x2.53 | 39.86% |
| CoDe (N = 0.3) | Anole | Ours | 0.2781 | 36.7520 | 0.5597 | 21.94 | x1.55 | x2.89 | 30.00% |
- CIARは最先端の推測デコード法と比較して202%のスピードアップとクラウドリクエストを70%削減を達成。
- CIARは評価モデル全体で視覚忠実度指標(CLIP、FID、F1、HPSv2)を維持または向上させる。
- Inter-Headの区間ベース不確実性は、エントロピーベースやランダムなベースラインより、ローカルトークン受理とクラウドオフロードの間でより良いバランスを提供する。
- 区間特徴条件付けを用いた区間強化デコーディングは分布整合化を維持し、細部の一貫性を改善する。
- プレフィックス注入戦略は不必要なクラウドリクエストを削減しつつ画像品質を保ち、導入率と待機時間の最適なバランスを提供する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。