QUICK REVIEW

[논문 리뷰] Latent Style-based Quantum GAN for high-quality Image Generation

Su Yeon Chang, Supanut Thanasilp|arXiv (Cornell University)|2024. 06. 04.

Computational Physics and Python Applications인용 수 5

한 줄 요약

LaSt-QGAN은 이미지를 잠재 공간으로 매핑하기 위해 고전적 오토인코더를 사용하고 잠재 특징을 생성하는 양자 생성기를 이용하여 큰-size 이미지 생성을 가능하게 하며 MNIST, FashionMNIST, SAT4에서 고전 GAN과의 경쟁력 있는 성능을 보이고, 샷 노이즈 및 배런 플래토 현상에 대한 분석도 포함한다.

ABSTRACT

Quantum generative modeling is among the promising candidates for achieving a practical advantage in data analysis. Nevertheless, one key challenge is to generate large-size images comparable to those generated by their classical counterparts. In this work, we take an initial step in this direction and introduce the Latent Style-based Quantum GAN (LaSt-QGAN), which employs a hybrid classical-quantum approach in training Generative Adversarial Networks (GANs) for arbitrary complex data generation. This novel approach relies on powerful classical auto-encoders to map a high-dimensional original image dataset into a latent representation. The hybrid classical-quantum GAN operates in this latent space to generate an arbitrary number of fake features, which are then passed back to the auto-encoder to reconstruct the original data. Our LaSt-QGAN can be successfully trained on realistic computer vision datasets beyond the standard MNIST, namely Fashion MNIST (fashion products) and SAT4 (Earth Observation images) with 10 qubits, resulting in a comparable performance (and even better in some metrics) with the classical GANs. Moreover, we analyze the barren plateau phenomena within this context of the continuous quantum generative model using a polynomial depth circuit and propose a method to mitigate the detrimental effect during the training of deep-depth networks. Through empirical experiments and theoretical analysis, we demonstrate the potential of LaSt-QGAN for the practical usage in the context of image generation and open the possibility of applying it to a larger dataset in the future.

연구 동기 및 목표

대형 사이즈 이미지를 생성할 수 있는 하이브리드 고전-양자 GAN(LaSt-QGAN)을 개발하고 동기를 제시한다.
고전적 컨볼루션 오토인코더를 활용해 고차원 이미지를 효율적 양자 생성을 위한 잠재 공간으로 매핑한다.
잠재 특징을 재현하고 오토인코더를 통해 이미지를 재구성하기 위해 고전적인 판별기와 함께 양자 생성기를 훈련한다.
MNIST, FashionMNIST, SAT4에서 LaSt-QGAN을 평가하고 매칭된 고전 GAN과 비교한다.
샷 노이즈에 대한 강건성을 조사하고 연속 양자 생성 모델의 학습 가능성을 알리기 위해 배런 플래토 현상을 분석한다.

제안 방법

이미지를 차원 Dℓ의 잠재 공간으로 인코딩하기 위해 사전에 학습된 컨볼루션 오토인코더를 사용; 이 잠재 공간에서 양자 생성기 Gθ를 훈련하고 웨스토인 손실과 그래디언트 페널티를 갖는 고전적 판별기 Dφ를 훈련한다.
잠재 잡음 z를 회전 각에 주입하는 매개변수화된 양자회로(스타일 기반 생성기)를 사용; L 계층을 사용하고 θℓ = Wℓ z + bℓ (데이터 재업로딩 개념).
잠재 특징에서 ⟨σx⟩ 및 ⟨σz⟩를 n 개의 큐비트의 기댓값으로 측정하고 이를 연결해 판별기를 위한 2n 차원 특징 벡터를 형성한다.
생성된 잠재 특징을 (사전에 학습된) 오토인코더의 디코더에 전달하여 이미지를 재구성한다; 실제 잠재 특징과 가짜를 맞추는 것을 목표로 하는 워터스틴 거리 오브젝트로 학습한다.
여러 양자 회로 구조(Circuits 1–3)를 비교하고 특징과 재구성된 이미지에 대해 FID, IS, JSD로 성능을 정량화한다.
학습 동력 및 샷 노이즈에 대한 강건성 평가를 통해 다항 깊이 회로의 초기화 전략을 제시한다.

실험 결과

연구 질문

RQ1LaSt-QGAN이 고차원 데이터에서 매핑된 잠재 공간에서 작동해 대형 이미지를 생성할 수 있는가?
RQ2잠재 매개변수 수가 유사한 고전 GAN과 비교할 때 MNIST, FashionMNIST, SAT4 데이터셋에서 LaSt-QGAN의 성능은 어떠한가?
RQ3생성 품질과 학습 안정성에 대한 양자 회로 깊이와 아키텍처의 영향은 무엇인가?
RQ4LaSt-QGAN은 샷 노이즈에 얼마나 강건하며, 잠재 플래토 현상을 완화하는 학습 전략은 무엇인가?

주요 결과

G_theta 구성	N_Θ	FID ↓	IS ↑	JSD (피처/ 10^-2) ↓	JSD (이미지/ 10^-2) ↓
Circ. 1 ( d=2 )	1360	17.2±0.35	8.29±0.02	0.79±0.05	1.63±0.09
Circ. 1 ( d=4 )	2280	14.85±0.34	8.49±0.04	0.75±0.07	1.49±0.18
Circ. 1 ( d=6 )	3200	14.13±0.73	8.53±0.05	0.71±0.07	1.29±0.10
Circ. 2 ( d=2 )	1010	19.13±0.54	8.10±0.06	1.22±0.19	2.08±0.17
Circ. 2 ( d=4 )	1690	16.2±0.32	8.34±0.03	0.94±0.09	1.66±0.17
Circ. 2 ( d=6 )	2370	14.85±0.61	8.47±0.06	0.85±0.05	1.39±0.11
Circ. 3 ( d=2 )	3300	14.29±0.38	8.50±0.04	0.76±0.06	1.50±0.12
Circ. 3 ( d=4 )	6600	12.72±0.40	8.65±0.05	0.71±0.07	1.14±0.12
Circ. 3 ( d=6 )	9900	11.99±0.56	8.71±0.04	0.72±0.09	1.13±0.12
Classical [50,30]	2960	18.24±3.6	8.24±0.28	3.74±1.64	4.51±2.0
Classical [100,50]	7660	12.56±0.91	8.80±0.06	1.18±0.17	1.56±0.13

LaSt-QGAN은 대형 이미지를 생성할 수 있으며 MNIST, FashionMNIST, SAT4에서 고전 GAN과 비슷한 규모의 지표(FID, IS, JSD)와 비교 우수한 지표를 달성한다.
MNIST와 FashionMNIST에서 여러 회로 깊이에서 고전 GAN보다 수렴 속도가 빠르고 안정성이 더 높게 관찰된다.
MNIST와 FashionMNIST에서 LaSt-QGAN은 고전 상대방에 비해 JSD 값이 더 낮고 FID/IS 추세가 더 호의적이며 데이터 분포 및 다양성 학습이 더 잘 이루어진다.
SAT4에서 LaSt-QGAN은 모든 평가 지표에서 고전 GAN보다 우수하며 대략 절반 규모의 매개변수로 달성한다.
t-SNE 시각화에서 생성된 특징이 클래스 분리 클러스터를 형성하는 것이 보이며 생성에서 잠재 구조가 보존됨을 시사한다.
연구는 다항 깊이 회로의 초기화에서 작은 각으로 시작하는 배런 플래토 현상을 완화할 수 있는 방법을 제공하여 연속 양자 생성 모델의 학습 가능성을 높인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.