QUICK REVIEW
[論文レビュー] A very preliminary analysis of DALL-E 2
Gary Marcus, Ernest Davis|arXiv (Cornell University)|Apr 25, 2022
Handwritten Text Recognition Techniques被引用数 88
ひとこと要約
本論文は、14の難易度の高いプロンプトを用いたDALL-E 2の非常に初期の評価を報告し、5つのプロンプトの要求を満たした少なくとも1枚の画像が存在した一方で、どのプロンプトも10枚の全ての画像を満たすことはなかった。
ABSTRACT
The DALL-E 2 system generates original synthetic images corresponding to an input text as caption. We report here on the outcome of fourteen tests of this system designed to assess its common sense, reasoning and ability to understand complex texts. All of our prompts were intentionally much more challenging than the typical ones that have been showcased in recent weeks. Nevertheless, for 5 out of the 14 prompts, at least one of the ten images fully satisfied our requests. On the other hand, on no prompt did all of the ten images satisfy our requests.
研究の動機と目的
- 常識と推論を要するプロンプトを扱うDALL-E 2の能力を評価する。
- 典型的なショーケースプロンプトを超える複雑なテキストプロンプトの理解をテストする。
- 難易度の高い課題に対するDALL-E 2の性能を予備的かつ定量的に把握する。
提案手法
- 通常のデモよりはるかに難解な14のプロンプトを設計する。
- 各プロンプトにつき10枚の画像を生成して一貫性と満足度を評価する。
- 生成された画像が各プロンプトの特定の要求を満たしているかを評価する。
実験結果
リサーチクエスチョン
- RQ1DALL-E 2は常識と推論を試すプロンプトを信頼性高く満たせるか。
- RQ21つのプロンプトにつき複数の画像を用いた場合、DALL-E 2は複雑なテキスト要件をどの程度理解し実行しているか。
主な発見
- 14のプロンプトのうち、少なくとも1枚の画像が5つのプロンプトの要求を満たした。
- どのプロンプトでも10枚中すべてが要求を満たしたわけではない。
- 用いられたプロンプトは公開されているデモより故意に難易度を高く設定した。
- 本研究はDALL-E 2の能力について極めて初期かつ限定的な見解を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。