QUICK REVIEW

[論文レビュー] Testing Relational Understanding in Text-Guided Image Generation

Colin Conwell, Tomer Ullman|arXiv (Cornell University)|Jul 29, 2022

Explainable Artificial Intelligence (XAI)被引用数 39

ひとこと要約

この論文は DALL-E 2 を 15 の基本的な関係に対して体系的にテストし、169 の人間評価を用いて、プロンプトとの平均合意が約22％にすぎないことを示す。これは、関係理解が限定的であることを示唆する。

ABSTRACT

Relations are basic building blocks of human cognition. Classic and recent work suggests that many relations are early developing, and quickly perceived. Machine models that aspire to human-level perception and reasoning should reflect the ability to recognize and reason generatively about relations. We report a systematic empirical examination of a recent text-guided image generation model (DALL-E 2), using a set of 15 basic physical and social relations studied or proposed in the literature, and judgements from human participants (N = 169). Overall, we find that only ~22% of images matched basic relation prompts. Based on a quantitative examination of people's judgments, we suggest that current image generation models do not yet have a grasp of even basic relations involving simple objects and agents. We examine reasons for model successes and failures, and suggest possible improvements based on computations observed in biological intelligence.

研究の動機と目的

現代のテキスト誘導画像生成モデルが、描写された場面に対して単純な関係をどれだけ結びつけられるかを評価する。
複数の基本的な物理的および主体的関係にわたって、機械生成画像と人間の合意を定量化する。
プロンプトと画像の整合性に影響を与える要因（例：関係タイプ、CLIP類似度）を特定する。
AIモデルの関係的構成性を高めるためのアーキテクチャ的および学習ベースの改善を議論する。

提案手法

8つの物理的関係と7つの主体的関係を含む15関係刺激セットを設計する。
DALL-E 2 を用いて各プロンプトから18枚の画像を生成し、総計1350枚の画像を収集する。
169 名の参加者に、それぞれの画像が与えられた文のプロンプトと一致するかどうかを判断してもらう。
プロンプトごとおよび画像ごとの平均合意を計算し、物理的関係と主体的関係の差を分析する。
CLIP の類似度スコアと人間の合意との関係を検討する。
ベイジアン多水準モデルを適用して、関係タイプと CLIP スコアが一致確率に与える効果を、ランダム効果を考慮して評価する。

実験結果

リサーチクエスチョン

RQ1DALL-E 2 が生成した画像は、物理的および主体的プロンプトに対する基本的な関係について人間の判断と一致するか？
RQ2関係タイプ（物理的対主体的）は、画像とプロンプトの整合性にどのように影響するか？
RQ3CLIP ベースの画像-プロンプト類似性と人間の一致との関係はどのようになるか？
RQ4単純な関係プロンプトはどの程度信頼性高く描写可能で、成功を左右する要因は何か？

主な発見

75 のプロンプト全体での平均人間合意は 22.2%（95% CI 18.3–26.6）。
主体的プロンプトは合意が高く（28.4%、95% CI 22.8–34.2）、物理的プロンプトより高い（16.9%、95% CI 11.9–23.0）。
Holm補正の検定では、15 のすべての関係で合意が0%を上回るが、平均で25%を超えるのは3つの関係（接触、協力、蹴る）のみ。
複数比較補正を行わなくても、どの関係も平均合意が50%を超えるものはない。
CLIP類似度は人間の合意と中程度の相関を示す（Spearman rho = 0.39, p = 5.5e-4）。
ベイズ混合効果モデルは、関係タイプと CLIP スコアが一致確率に与える効果を小さ〜中程度の有意差として示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。