QUICK REVIEW

[논문 리뷰] A Novel Measure to Evaluate Generative Adversarial Networks Based on Direct Analysis of Generated Images

Shuyue Guan, Murray H. Loew|arXiv (Cornell University)|2020. 02. 27.

Generative Adversarial Networks and Image Synthesis참고 문헌 56인용 수 11

한 줄 요약

이 논문은 사전에 학습된 분류기 없이 생성된 이미지를 직접 분석하는 새로운 GAN 평가 지표인 유사도 점수(Likeness Score, LS)를 제안한다. 유클리드 거리를 사용한 거리 기반 분리 가능성 지표를 통해 창의성, 유산성, 다양성을 정량화함으로써, LS는 안정적이고 해석 가능하며 기초적인 평가 프레임워크를 제공하며, 다양한 GAN과 데이터셋에서 IS 및 FID와 경쟁하거나 그에 미치지 못하지 않게 성능을 발휘한다.

ABSTRACT

The Generative Adversarial Network (GAN) is a state-of-the-art technique in the field of deep learning. A number of recent papers address the theory and applications of GANs in various fields of image processing. Fewer studies, however, have directly evaluated GAN outputs. Those that have been conducted focused on using classification performance, e.g., Inception Score (IS) and statistical metrics, e.g., Fr\'echet Inception Distance (FID). Here, we consider a fundamental way to evaluate GANs by directly analyzing the images they generate, instead of using them as inputs to other classifiers. We characterize the performance of a GAN as an image generator according to three aspects: 1) Creativity: non-duplication of the real images. 2) Inheritance: generated images should have the same style, which retains key features of the real images. 3) Diversity: generated images are different from each other. A GAN should not generate a few different images repeatedly. Based on the three aspects of ideal GANs, we have designed the Likeness Score (LS) to evaluate GAN performance, and have applied it to evaluate several typical GANs. We compared our proposed measure with two commonly used GAN evaluation methods: IS and FID, and four additional measures. Furthermore, we discuss how these evaluations could help us deepen our understanding of GANs and improve their performance.

연구 동기 및 목표

InceptionNet과 같은 사전에 학습된 분류기에 의존하지 않는 기초적이고 직접적인 GAN 생성 이미지 평가 방법의 부족을 해결하기 위해.
고품질 GAN 생성의 세 가지 핵심 특성인 창의성(중복 방지), 유산성(시각적 정확도), 다양성(샘플 간 구별성)을 정의하고 정량화하기 위해.
유클리드 거리를 사용해 이미지 수준의 유사성과 차이를 직접 측정하는 새로운 평가 지표인 유사도 점수(Likeness Score, LS)를 개발하여 기존 지표의 안정적이고 해석 가능한 대안을 제공하기 위해.
다양한 GAN 아키텍처와 데이터셋에서 기존 지표(IS, FID, 1NNC, MS, AM, SWD)와의 비교를 통해 LS의 성능과 안정성을 검증하기 위해.

제안 방법

생성된 이미지와 진짜 이미지 간의 유클리드 거리를 사용한 거리 기반 분리 가능성 지표를 제안하여 이미지 수준의 유사성과 차이를 정량화한다.
세 가지 평가 차원을 정의한다: 창의성(진짜 이미지로부터의 거리로 측정), 유산성(진짜 이미지 분포로의 거리로 측정), 다양성(샘플 간 거리 분포로 측정).
다중 척도 셀 기반 분석에서 클래스 간 거리(ICD)와 클래스 간 거리(BCD) 기반의 프레임워크를 활용해 세 가지 요소를 통합한 유사도 점수(Likeness Score, LS)를 구성한다.
사전에 학습된 네트워크를 사용하지 않고, 픽셀 수준 또는 특징 수준의 거리에만 의존하여 생성된 이미지 특징에 직접 LS를 적용한다.
이론적 분석을 통해 진짜 데이터와 생성된 데이터의 분포가 동일할 경우 ICD와 BCD 거리 분포가 서로 구별되지 않음을 증명함으로써, LS가 분포 정밀도에 민감함을 검증한다.
ICD 및 BCD 집합의 분포를 비교하기 위해 커널 밀도 추정과 코모고로프-스미르노프(Kolmogorov-Smirnov, KS) 거리를 사용하여 LS 계산의 핵심을 형성한다.

실험 결과

연구 질문

RQ1InceptionNet과 같은 사전에 학습된 분류기에 의존하지 않고 생성된 이미지를 직접 분석할 수 있는 GAN 평가 지표를 개발할 수 있는가?
RQ2창의성, 유산성, 다양성이라는 GAN 생성의 세 핵심 성질을 통합된 거리 기반 프레임워크로 얼마나 정량적으로 측정할 수 있는가?
RQ3다양한 GAN 아키텍처에서 제안된 유사도 점수(Likeness Score, LS)가 IS, FID, MS, AM, SWD와 비교해 성능과 안정성 면에서 어떻게 나타나는가?
RQ4LS는 과적합과 모드 붕괴를 탐지하는 데 있어 기존 지표보다 더 해석 가능하고 안정적인 결과를 제공할 수 있는가?

주요 결과

유사도 점수(Likeness Score, LS)는 생성된 이미지에 대한 직접적이고 분류기 없는 분석을 통해 GAN 생성의 세 가지 바람직한 성질인 창의성, 유산성, 다양성을 효과적으로 포괄한다.
LS는 다양한 GAN(DCGAN, WGAN-GP, SNGAN, LSGAN, SAGAN)과 다양한 데이터셋에서 IS 및 FID와 경쟁하거나 그에 미치지 못하지 않게 뛰어난 성능을 보이며, 높은 경쟁력을 입증한다.
생성된 이미지의 수에 관계없이 LS는 안정적이며, 다양한 샘플 크기에서 일관된 행동을 보인다.
이론적 분석을 통해 진짜 데이터와 생성된 데이터의 분포가 동일할 경우, 클래스 간 거리(ICD)와 클래스 간 거리(BCD)의 거리 분포가 동일해짐을 증명함으로써, LS가 분포 정밀도에 민감함을 검증한다.
과적합과 모드 붕괴를 성공적으로 탐지하며, 동일하거나 너무 유사한 이미지를 생성하는 GAN을 구분할 수 있는 능력을 보여준다.
LS는 지표 값이 시각적 품질 요소와 직접 연결되어 있어, 분류기 출력에 기반한 지표보다 더 해석 가능한 평가를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.