QUICK REVIEW

[論文レビュー] HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative Models

Sharon Zhou, Mitchell Gordon|arXiv (Cornell University)|Apr 1, 2019

Visual perception and processing mechanisms参考文献 59被引用数 72

ひとこと要約

HYPEは2つの人間知覚ベンチマーク（時間ベースと時間フリー）を確立し、生成モデルの視覚的リアリズムを信頼性高く測定可能にする。データセット間でコスト効率が高く、再現性があり、モデル比較を分離可能にする。

ABSTRACT

Generative models often use human evaluations to measure the perceived quality of their outputs. Automated metrics are noisy indirect proxies, because they rely on heuristics or pretrained embeddings. However, up until now, direct human evaluation strategies have been ad-hoc, neither standardized nor validated. Our work establishes a gold standard human benchmark for generative realism. We construct Human eYe Perceptual Evaluation (HYPE) a human benchmark that is (1) grounded in psychophysics research in perception, (2) reliable across different sets of randomly sampled outputs from a model, (3) able to produce separable model performances, and (4) efficient in cost and time. We introduce two variants: one that measures visual perception under adaptive time constraints to determine the threshold at which a model's outputs appear real (e.g. 250ms), and the other a less expensive variant that measures human error rate on fake and real images sans time constraints. We test HYPE across six state-of-the-art generative adversarial networks and two sampling techniques on conditional and unconditional image generation using four datasets: CelebA, FFHQ, CIFAR-10, and ImageNet. We find that HYPE can track model improvements across training epochs, and we confirm via bootstrap sampling that HYPE rankings are consistent and replicable.

研究の動機と目的

心理物理学に基づく生成モデルの視覚的リアリズムのゴールドスタンダードとなる人間ベンチマークを定義する。
信頼性が高く、分離可能で、コスト効率の高い2つの評価バリアント（時間ベースと時間フリー）を提供する。
データセットとサンプリング方法を横断してHYPEがモデルを一貫して順位付けできることを示す。
自動指標と比較し、トレーニング中の進捗を追跡する際のHYPEの利用例を示す。

提案手法

HYPE_timeは適応的な時間制約を用いて実リアルか偽画像かの知覚閾値を見つける。
HYPE_infinity (HYPE_\u221e) は時間制約なしで50枚の実画像と50枚の偽画像の人間のエラー率を測定する。
評価セットを形成するためにモデルと実データセットから画像をサンプリングする（各モデルあたりK=5000、実データは各モデルあたり5000）。
評価者はラベル品質を保証するための資格タスクをクリアする必要がある；資格取得には100画像タスクで$65\%$の精度が求められる。
信頼性のためにブートストラッピングを用いて95%信頼区間と標準偏差を算出する。

実験結果

リサーチクエスチョン

RQ1心理物理学に基づく人間ベンチマークはGANsとサンプリング方法を横断して知覚的リアリズムを信頼性高く区別できるか？
RQ2時間ベースと時間フリーのバリアントは一貫した順位付けと分離可能なモデル差を生み出すか？
RQ3HYPEはデータセットとモデル間でFID、KID、精度などの自動指標とどのように相関するか、あるいは乖離するか？
RQ4大規模なモデル評価とトレーニング中の進捗追跡のためにHYPEはスケールし、コスト効率が高いか？
RQ5結果は顔以外の物体や他データセットへと一般化するか？

主な発見

HYPE_timeとHYPE_infinityはCelebA-64およびFFHQ-1024を横断した無条件顔生成において一貫したモデル順位を示す。
StyleGAN with truncationはFFHQ-1024でトップパフォーマーであり、HYPE_timeは363.2 ms、HYPE_infinityは27.6%である。
CelebA-64においてHYPE_infinityは分離可能なモデル差を提供する一方、HYPE_timeは一部のペアでボトミング効果を示す。
HYPEはHYPE_timeとHYPE_infinityの間で強い相関を示す（rho = 1.0, p = 0.0）、一方でFIDやKIDとの相関はタスクにより弱いまたは変動する。
ImageNet-5では一部クラスでモデル間に分離可能な差が見られる一方、難易度の高いクラスでは全モデルで低いスコアが一貫して観測され、タスクの難易度が知覚的リアリズムに影響することを示す。
CIFAR-10の結果はStyleGAN_truncが人間の知覚的リアリズムで以前のモデルを部分的に上回り始めていることを示し、自動指標との相関はモデルクラスによって中程度または有意差なしとなり、モデルクラスによって異なる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。