QUICK REVIEW

[論文レビュー] Think Bright, Diffuse Nice: Enhancing T2I-ICL via Inductive-Bias Hint Instruction and Query Contrastive Decoding

Zhiyong Ma, Zhenpeng Li|arXiv (Cornell University)|Jan 7, 2026

Generative Adversarial Networks and Image Synthesis被引用数 0

ひとこと要約

TBDN は Hint Instruction (HI) と Query Contrastive Decoding (QCD) を組み合わせて、適合性の不全と事前支配的幻覚を低減し、訓練なしで複数のベンチマークで最先端の結果を達成する Text-to-Image In-Context Learning (T2I-ICL) の訓練フリーなフレームワークです。

ABSTRACT

Text-to-Image In-Context Learning (T2I-ICL) enables customized image synthesis via interleaved text-image examples but faces two mutually reinforcing bottlenecks, compliance failure and prior-dominated hallucination, that form a vicious cycle degrading generation quality. Existing methods rely on tailored training, which limits flexibility and raises deployment costs. To address these challenges effectively, we propose TBDN, a training-free framework integrating two complementary closed-loop mechanisms: Hint Instruction (HI) and Query Contrastive Decoding (QCD). HI injects task-aware inductive bias via lightweight prompt engineering to anchor models on contextual mapping rules, thereby mitigating compliance failure. QCD adjusts the decoding distributions of language models by contrasting full-input and query-omitted distributions, suppressing prior-dominated hallucination. TBDN achieves State-of-the-Art performance on CoBSAT and Text-to-Image Fast Mini-ImageNet, with robust generalization across model backbones, prompt designs, and hyperparameters. It also maintains promising performance in concept preservation and prompt following on Dreambench++. By breaking the two bottlenecks, TBDN establishes a simple yet effective framework for efficient and reliable T2I-ICL.

研究の動機と目的

T2I-ICL の二つのコアボトルネック：適合性不全と事前支配的幻覚を識別する。
HI と QCD を組み合わせた訓練フリーのフレームワーク TBDN を提案し、これらのボトルネックに対処する。
LVLM バックボーン、プロンプト、ハイパーパラメータを横断する TBDN の頑健性と一般化を実証する。
訓練なし deployment における CoBSAT および Text-to-Image Fast Mini-ImageNet での最先端性能を示す。

提案手法

Hint Instruction (HI) の導入：最終クエリを重視するプロンプトベースの帰納バイアス機構で、マッピングルール推論をアンカリングする。
Query Contrastive Decoding (QCD) の導入：完全入力分布とクエリ省略分布を対比して事前知識を抑制し、入力文脈と整合させるデコーディング戦略。
五段階の TBDN ワークフローを記述：Pre-processing、Injection of HI、Reasoning by LVLM、Decoding with P_sub and P_full via QCD、Diffusion-based image synthesis。
QCD 分布を P_full = ∏ pθ(y_t | X_ins, X_con, X_que, y_<t) および P_sub = ∏ pθ(y_t | X_ins, X_con, y_<t) として定式化； Y は P_qcd ∝ softmax((1+α)·P_full − α·P_sub) から抽出。
LVLM 出力を高忠実度画像へ変換する拡散モデルとの統合を示す。
ベースライン（例：SEED-LLaMA、SEED-X、Emu、GILL、ThinkDiff）と HI および QCD のアブレーションを複数の LVLM バックボーンおよびプロンプトで比較する。

実験結果

リサーチクエスチョン

RQ1HI は最終クエリへのタスク認識的帰納バイアスを注入することで適合性不全を緩和できるか？
RQ2QCD は完全入力とクエリ省略デコード分布を対比することで事前支配的幻覚を抑制できるか？
RQ3HI と QCD は補完的なゲインをもたらし、TBDN は LVLM バックボーンとプロンプトで訓練なしで機能するか？
RQ4TBDN の CoBSAT、Text-to-Image Fast Mini-ImageNet、Dreambench++ に対する最先端性能はどうか？
RQ5 HI および QCD は他の指示テンプレートと比べて効率性とトークンオーバーヘッドの点でどうか？

主な発見

TBDN は CoBSAT および Text-to-Image Fast Mini-ImageNet において 2-shot および 4-shot 設定で最先端の結果を達成。
Base (Q2) および Base (I3) パイプラインは追加のモダリティ整合を必要とせず ThinkDiff を上回る。
アブレーションにより HI と QCD が一貫した改善を提供し、両方を組み合わせると最も強い結果になる。
TBDN は訓練フリーで、LVLM バックボーン、プロンプト、ハイパーパラメータ全体で頑健な一般化を示す。
Dreambench++ では TBDN はプロンプト追従性が有望だが、固定ビジュアルジェネレータのため概念保持に限界もある。
HI は一般に背景および動作関連タスクを改善し、QCD は物体/属性推論を強化する；双方は補完的なループを形成する。
指示バリアント（CB-Ins、CoT-Ins、TD-Ins、TD-Ins++）と比較して、HI は有効性と効率のバランスが最も良く、トークンコストは中程度である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。