Skip to main content
QUICK REVIEW

[論文レビュー] MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing

Kai Zhang, Lingbo Mo|arXiv (Cornell University)|Jun 16, 2023
Multimodal Machine Learning Applications被引用数 28
ひとこと要約

tldr: MagicBrush は、over 10K edit turns across more than 5K edit sessions を含む指示-guided 実画像編集の大規模な手動注釈付きデータセットを導入し、MagicBrush 上で InstructPix2Pix をファインチューニングすることが、人間評価によればベースラインよりも良い結果を生むことを示します。

ABSTRACT

Text-guided image editing is widely needed in daily life, ranging from personal use to professional applications such as Photoshop. However, existing methods are either zero-shot or trained on an automatically synthesized dataset, which contains a high volume of noise. Thus, they still require lots of manual tuning to produce desirable outcomes in practice. To address this issue, we introduce MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), the first large-scale, manually annotated dataset for instruction-guided real image editing that covers diverse scenarios: single-turn, multi-turn, mask-provided, and mask-free editing. MagicBrush comprises over 10K manually annotated triplets (source image, instruction, target image), which supports trainining large-scale text-guided image editing models. We fine-tune InstructPix2Pix on MagicBrush and show that the new model can produce much better images according to human evaluation. We further conduct extensive experiments to evaluate current image editing baselines from multiple dimensions including quantitative, qualitative, and human evaluations. The results reveal the challenging nature of our dataset and the gap between current baselines and real-world editing needs.

研究の動機と目的

  • 高品質で現実の画像の指示-guided 編集データが、合成データやゼロショットアプローチを超える必要性を動機づける。
  • 単一ターンおよびマルチターンの編集を、マスクの有無を問わず捉える大規模な手動注釈付きデータセットを作成する。
  • 高品質なグラウンドトゥルースを保証するため、DALL-E 2 とクラウドワーカーを用いた厳格な注釈と品質管理パイプラインを提供する。
  • マスクなし設定とマスク提供設定の両方で既存の編集ベースラインを評価し、現在のギャップとデータセットの有用性を確立する。
  • MagicBrush での学習がモデルの性能を向上させ、現実世界の編集ニーズと現在の方法とのギャップを明らかにする。

提案手法

  • Amazon Mechanical Turk と DALL-E 2 を用いたクラウドソーシング注釈パイプラインで、実画像の編集トリップレット(元画像、指示、目標画像)を生成する。
  • 資格審査、トライアル、継続的なスポットチェックの3段階の注釈ワークフローで高品質データを維持する。
  • 編集セッションは単一ターンまたはマルチターンの編集を含み、局所編集のためのマスク案内をオプションとして提供できる。
  • データセットは 5,313 セッションと 10,388 ターンを含み、MS COCO からサンプルされた多様な編集シナリオとオブジェクトカテゴリを網羅する。
  • MagicBrush で InstructPix2Pix をファインチューニングし、定量的指標と人間評価を通じてベースラインと比較する。

実験結果

リサーチクエスチョン

  • RQ1Instruction-guided editing の大規模で手動注釈付きデータセットは、既存の合成データや部分的にキュレーションされたデータと比較して編集モデルの訓練にどのような影響を与えるか?
  • RQ2MagicBrush で指示遵守エディタをファインチューニングすると、マスクなし・マスク提供設定の両方で画像の忠実性と指示遵守は改善されるか?
  • RQ3マルチターン編集は品質と一貫性にどのような影響を与え、現在のモデルは反復編集にどの程度対応できるか?
  • RQ4MagicBrush での自動指標は、MagicBrush の人間評価とどの程度一致するか?

主な発見

  • MagicBrush で InstructPix2Pix をファインチューニングすると、ほとんどの指標で最高またはほぼ最高の結果を得て、ベースラインより人間評価で改善される。
  • 人間の評価者は、単一ターンおよびマルチターンの両方のシナリオで、一貫性と画像品質の点で他の方法よりファインチューニング済み InstructPix2Pix を好む。
  • MagicBrush データは、品質チェックで平均的な一貫性と画像品質スコアが 4.1 と 3.9(5点満点)程度で高品質な編集ターンを達成する。
  • Qualitative および Quantitative 実験は、現在のベースラインと現実世界の編集ニーズとのギャップを、特にマルチターンおよびマスクなし条件下で明らかにする。
  • ユーザーおよび評価者の嗜好は、一部の自動指標と人間の判断との間に潜在的な乖離があることを示しており、より良い評価指標の必要性を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。