QUICK REVIEW

[논문 리뷰] HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative Models

Sharon Zhou, Mitchell Gordon|arXiv (Cornell University)|2019. 04. 01.

Visual perception and processing mechanisms참고 문헌 59인용 수 72

한 줄 요약

HYPE는 두 가지 인간 지각 벤치마크(시간 기반과 시간 무관)를 설정하여 생성 모델의 시각적 리얼리즘을 신뢰할 수 있게 측정하고, 데이터셋 간 비용 효율적이며 재현 가능하고 구분 가능한 모델 비교를 가능하게 합니다.

ABSTRACT

Generative models often use human evaluations to measure the perceived quality of their outputs. Automated metrics are noisy indirect proxies, because they rely on heuristics or pretrained embeddings. However, up until now, direct human evaluation strategies have been ad-hoc, neither standardized nor validated. Our work establishes a gold standard human benchmark for generative realism. We construct Human eYe Perceptual Evaluation (HYPE) a human benchmark that is (1) grounded in psychophysics research in perception, (2) reliable across different sets of randomly sampled outputs from a model, (3) able to produce separable model performances, and (4) efficient in cost and time. We introduce two variants: one that measures visual perception under adaptive time constraints to determine the threshold at which a model's outputs appear real (e.g. 250ms), and the other a less expensive variant that measures human error rate on fake and real images sans time constraints. We test HYPE across six state-of-the-art generative adversarial networks and two sampling techniques on conditional and unconditional image generation using four datasets: CelebA, FFHQ, CIFAR-10, and ImageNet. We find that HYPE can track model improvements across training epochs, and we confirm via bootstrap sampling that HYPE rankings are consistent and replicable.

연구 동기 및 목표

심리물리학에 기반한 생성 모델의 시각적 리얼리즘에 대한 골드 스탠다드 인간 벤치마크를 정의한다.
신뢰할 수 있고 구분 가능하며 비용 효율적인 두 가지 평가 변형(시간 기반 및 시간 무관)을 제공한다.
데이터셋과 샘플링 방법 간에 일관되게 모델을 순위를 매길 수 있는 HYPE의 능력을 보여준다.
HYPE를 자동화된 지표와 비교하고 훈련 중 진행 상황을 추적하는 데 사용함을 보여준다.

제안 방법

두 가지 HYPE 변형: HYPE_time은 적응형 시간 제약을 사용하여 진짜 이미지와 가짜 이미지의 지각 threshold를 찾는다.
HYPE_infinity (HYPE_\\u221e) 는 시간 제약 없이 50장의 실제 이미지와 50장의 가짜 이미지에 대한 인간 오차율을 측정한다.
평가 세트를 형성하기 위해 모델과 실제 데이터셋에서 이미지를 샘플링한다(모델당 K=5000, 모델당 5000개의 실제 이미지).
평가자는 자격 테스트를 통과하여 레이블 품질을 보장한다; 자격 취득을 위해 100개의 이미지 과제에서 $65\\%$ 정확도가 요구된다.
신뢰성을 위해 부트스트래핑을 사용하여 95% 신뢰구간과 표준편차를 계산한다.

실험 결과

연구 질문

RQ1심리물리학에 기반한 인간 벤치마크가 GAN과 샘플링 방법 간에 지각적 리얼리즘을 신뢰할 수 있게 구분할 수 있는가?
RQ2시간 기반 변형과 시간 무관 변형이 일관된 순위와 구분 가능한 모델 차이를 제공하는가?
RQ3HYPE가 데이터셋과 모델 전반에서 FID, KID, precision 등의 자동 지표와 어떤 상관관계를 보이거나 차이가 있는가?
RQ4대규모 모델 평가와 훈련 중 진행 상황 추적을 위해 HYPE가 확장 가능하고 비용 효율적인가?
RQ5얼굴 외의 사물 및 다른 데이터셋으로 결과가 일반화되는가?

주요 결과

HYPE_time과 HYPE_infinity는 CelebA-64와 FFHQ-1024에서 무조건 얼굴 생성에 대해 일관된 모델 순위를 산출한다.
들여쓰기? 트렁케이션이 적용된 StyleGAN은 FFHQ-1024에서 최고의 성능을 보였으며 HYPE_time은 363.2 ms이고 HYPE_infinity는 27.6%이다.
HYPE_infinity는 CelebA-64에서 모델 간 구분 가능한 차이를 제공하며, 일부 쌍에서 HYPE_time이 최저점화(bottoming-out) 현상을 보일 때도 마찬가지이다.
HYPE는 HYPE_time과 HYPE_infinity 사이에 강한 상관관계(rho = 1.0, p = 0.0)를 보이며, 작업 간 FID 및 KID와는 약하거나 가변적인 상관관계를 보인다.
ImageNet-5에서 일부 클래스는 모델 간 구분 가능한 차이가 나타나지만, 더 어려운 클래스는 모델 전반에 걸쳐 일관되게 낮은 점수를 보여 작업 난이도가 지각적 리얼리즘에 영향을 미친다는 것을 시사한다.
CIFAR-10 결과는 StyleGAN_trunc이 인간 지각 리얼리즘에서 초기 모델들을 일부 앞서기 시작했음을 보이며, 자동화 지표와의 상관은 중등도이거나 중요하지 않으며 모델 계급에 따라 다르다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.