QUICK REVIEW

[論文レビュー] TextDiffuser: Diffusion Models as Text Painters

Jingye Chen, Yupan Huang|arXiv (Cornell University)|May 18, 2023

Generative Adversarial Networks and Image Synthesis被引用数 15

ひとこと要約

TextDiffuser は、Transformer でキーワードレイアウトを予測し、その後、テキストプロンプトと生成されたレイアウトに条件付けされた拡散を用いて画像をレンダリングする二段階の拡散フレームワークを導入する。さらに、テキストレンダリング研究のために MARIO-10M と MARIO-Eval を公開する。

ABSTRACT

Diffusion models have gained increasing attention for their impressive generation abilities but currently struggle with rendering accurate and coherent text. To address this issue, we introduce TextDiffuser, focusing on generating images with visually appealing text that is coherent with backgrounds. TextDiffuser consists of two stages: first, a Transformer model generates the layout of keywords extracted from text prompts, and then diffusion models generate images conditioned on the text prompt and the generated layout. Additionally, we contribute the first large-scale text images dataset with OCR annotations, MARIO-10M, containing 10 million image-text pairs with text recognition, detection, and character-level segmentation annotations. We further collect the MARIO-Eval benchmark to serve as a comprehensive tool for evaluating text rendering quality. Through experiments and user studies, we show that TextDiffuser is flexible and controllable to create high-quality text images using text prompts alone or together with text template images, and conduct text inpainting to reconstruct incomplete images with text. The code, model, and dataset will be available at \url{https://aka.ms/textdiffuser}.

研究の動機と目的

拡散モデルによって生成される画像内の正確で一貫したテキストのレンダリングを改善する動機づけ。
Transformer ベースのレイアウト段を用いて背景とテキストレイアウトを整合させ、制御可能で柔軟なパイプラインを作成する。
プロンプトとキャラクター単位のレイアウトマスクの両方で条件づけられた拡散モデルを活用して、画像内に高品質なテキストを生成する。
大規模 OCR 注釈付きデータセット MARIO-10M と包括的な評価ベンチマーク MARIO-Eval を導入する。
実験およびユーザ調査を通じて、本アプローチがテキストレンダリング品質のベースラインより優れていることを示す。

提案手法

Stage 1 (Layout Generation): プロンプトからキーワードの境界ボックスを予測するために、CLIP 埋め込み、キーワード/幅の埋め込み、位置情報エンコーディングの助けを借りた Transformer ベースのエンコーダ-デコーダを使用する。 ground-truth ボックスに対して L1 損失で学習し、文字レベルのセグメンテーションマスクを得る。
Stage 2 (Image Generation): 画像を VAE で潜在空間にエンコードし、潜在空間をダウンサンプリングしてセグメンテーションマスクと追加の特徴マスクで潜在拡散モデルを条件付ける；固定された事前学習済み U-Net によるガイド付きの denoising 損失と文字認識に配慮した損失で、テキスト領域の品質を向上させる。
Inference: editable レイアウトを伴うプロンプトからの生成を許可するか、事前学習済みセグメンテーションマスクを用いてテンプレート画像から開始し、背景の一貫性を保ちつつテキストのインペイントで修正・再構築を可能にする。
Dataset and Benchmark: MARIO-10M (10,061,720 image-text pairs with OCR annotations) と MARIO-Eval (5,414 prompts and image-text pairs) を提案し、テキストレンダリング品質を評価する。
Training Details: 拡散段を 50 sampling steps、classifier-free guidance、8 GPUs で1エポック/2エポックの設定で学習する；入力チャネルを 4 から 17 に変更してレイアウト誘導条件付けに対応する。

実験結果

リサーチクエスチョン

RQ1二段階の拡散フレームワークが、明示的なテキストレイアウト指導と共に、画像内の読みやすく背景と整合するテキストを生成できるか。
RQ2キャラクター単位のセグメンテーションマスクとキャラクター意識的な損失を組み込むことで、拡散モデルにおける多行テキストレンダリングの適用性が向上するか。
RQ3TextDiffuser は既存の拡散ベースおよびテキスト対応手法と比較してテキストレンダリング品質でどの程度優れているか。
RQ4大規模OCR注釈付きデータセット (MARIO-10M) と専用の MARIO-Eval ベンチマークは、拡散モデルにおけるテキストレンダリングの信頼性の高い評価を提供するか。
RQ5複雑なテキスト画像（ポスター、ブックカバー等）におけるテキストレイアウトの制御と純粋なプロンプト駆動生成のトレードオフは何か。

主な発見

Metrics	StableDiffusion	ControlNet	DeepFloyd	TextDiffuser
FID	51.295	51.485	34.902	38.758
CLIPScore	0.3015	0.3424	0.3267	0.3436
OCR(Accuracy)	0.0003	0.2390	0.0262	0.5609
OCR(Precision)	0.0173	0.5211	0.1450	0.7846
OCR(Recall)	0.0280	0.6707	0.2245	0.7802
OCR(F-measure)	0.0214	0.5865	0.1762	0.7824

TextDiffuser は比較対象の手法の中で最良の CLIPScore を達成し、FID も競争力があり、OCR ベースの指標を大幅に改善している。
OCR 精度指標で、TextDiffuser はベースラインを大幅に上回り（例:報告結果で Acc が最大 0.5609、F-measure が 0.7824 など）。
文字レベルのセグメンテーションマスクは、テキストの正確さと背景との整合性を大幅に改善する明示的な指針を提供する。
キャラクター意識的な損失（lambda_char = 0.01）は、アブレーションで最高の OCR 精度をもたらし、対象指導の価値を示す。
二分岐学習は、全体像と部分画像生成のバランスを取ることで、テキストの正確さと検出/スポット検出の F-measure を向上させる。
TextDiffuser は Stable Diffusion、ControlNet、DeepFloyd よりも OCR関連指標と CLIPScore で上回り、FID も競争力がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。