[論文レビュー] AnyText: Multilingual Visual Text Generation And Editing
AnyTextは、補助潜在モジュールとOCR対応テキスト埋め込みモジュールを用いて画像内の読みやすいテキストをレンダリングし、AnyWord-3MデータセットとAnyText-benchmarkを導入する、ディフュージョンベースの多言語視覚テキスト生成・編集フレームワークです。
Diffusion model based Text-to-Image has achieved impressive achievements recently. Although current technology for synthesizing images is highly advanced and capable of generating images with high fidelity, it is still possible to give the show away when focusing on the text area in the generated image. To address this issue, we introduce AnyText, a diffusion-based multilingual visual text generation and editing model, that focuses on rendering accurate and coherent text in the image. AnyText comprises a diffusion pipeline with two primary elements: an auxiliary latent module and a text embedding module. The former uses inputs like text glyph, position, and masked image to generate latent features for text generation or editing. The latter employs an OCR model for encoding stroke data as embeddings, which blend with image caption embeddings from the tokenizer to generate texts that seamlessly integrate with the background. We employed text-control diffusion loss and text perceptual loss for training to further enhance writing accuracy. AnyText can write characters in multiple languages, to the best of our knowledge, this is the first work to address multilingual visual text generation. It is worth mentioning that AnyText can be plugged into existing diffusion models from the community for rendering or editing text accurately. After conducting extensive evaluation experiments, our method has outperformed all other approaches by a significant margin. Additionally, we contribute the first large-scale multilingual text images dataset, AnyWord-3M, containing 3 million image-text pairs with OCR annotations in multiple languages. Based on AnyWord-3M dataset, we propose AnyText-benchmark for the evaluation of visual text generation accuracy and quality. Our project will be open-sourced on https://github.com/tyxsspa/AnyText to improve and promote the development of text generation technology.
研究の動機と目的
- 複数言語にわたるディフュージョンベースの画像生成で読みやすく正確なテキストをレンダリングする課題に対処する。
- 補助潜在モジュールとOCR情報を取り入れたテキスト埋め込みモジュールを用いたディフュージョンベースのパイプラインを提案し、背景スタイルを維持しつつ画像内のテキストをレンダリング・編集する。
- 大規模な多言語テキスト-画像データセットAnyWord-3Mと評価用ベンチマークAnyText-benchmarkを導入する。
- テキストの正確さと画像のリアリズムにおいて既存手法を上回る性能を、多言語テキスト生成で示す。
提案手法
- テキスト制御ディフュージョンパイプラインを、補助潜在モジュールとテキスト埋め込みモジュールという2つの条件付けコンポーネントで提案する。
- 補助潜在モジュールは文字形、位置、マスク画像領域を、グリフ、位置、マスク入力を用いて潜在特徴マップにエンコードする。
- テキスト埋め込みモジュールはグリフをレンダリングし、筆跡情報をエンコードするOCRベースの埋め込み(PP-OCRv3)を使用し、トランスフォーマとクロスアテンションを介してキャプション埋め込みと融合する。
- ターゲットテキスト領域での書字精度を向上させるため、テキスト制御ディフュージョン損失とテキスト知覚損失で訓練する。
- 既存のディフュージョンモデルとのプラグアンドプレイ対応を可能にするため、TextControlNetを結合してテキスト生成に焦点を当てつつベースモデルの能力を維持する。
- OCR用埋め込みを含む多言語対応の視覚テキスト生成をサポートするAnYWord-3M(OCR注釈付き3.0Mのimage-textデータセット)とAnyText-benchmarkを提示する。
実験結果
リサーチクエスチョン
- RQ1ディフュージョンベースのモデルは、指定した位置や領域(曲線・不規則領域を含む)で多言語の読みやすいテキストを画像にレンダリングできるか。
- RQ2画像内のテキスト編集を、言語間でフォントスタイルと配置を一貫させて実行できるか。
- RQ3OCRベースのグリフ埋め込みと補助潜在モジュールの組み込みは、多言語テキストの正確さと視覚的リアリズムを向上させるか。
- RQ4テキスト制御ディフュージョン損失とテキスト知覚損失が、書字の正確さと全体的な画像品質にどのように影響するか。
主な発見
- AnyTextはOCR精度(Sen. ACC, NED)とリアリズム(FID)でAnyText-benchmarkにおいて英語・中国語のテキスト生成で競合手法を上回る。
- v1.1モデルは英語Sen. ACC 0.7239、中国語Sen. ACC 0.6923を達成し、NEDとFIDが従来手法より改善。
- v1.0モデルはすでに複数のベースラインを凌駕し、背景(石彫刻、看板など)との統合が強いことを示す。
- 提案するOCR誘導テキスト埋め込みと補助潜在モジュールにより、多段・変形領域・多言語テキスト生成・編集が実現され、非ラテン文字スクリプトも含む。
- 大規模データセットAnyWord-3M(OCR注釈付き3.0Mの画像-テキスト対)を訓練に活用でき、AnyText-benchmarkは多言語視覚テキスト生成の標準的評価を提供。
- アブレーション研究により、OCRベース埋め込み、明示的な位置条件付け、テキスト知覚損失が、中国語・英語のテキスト生成精度を高めることが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。