[논문 리뷰] Latent Style-based Quantum GAN for high-quality Image Generation
LaSt-QGAN은 이미지를 잠재 공간으로 매핑하기 위해 고전적 오토인코더를 사용하고 잠재 특징을 생성하는 양자 생성기를 이용하여 큰-size 이미지 생성을 가능하게 하며 MNIST, FashionMNIST, SAT4에서 고전 GAN과의 경쟁력 있는 성능을 보이고, 샷 노이즈 및 배런 플래토 현상에 대한 분석도 포함한다.
Quantum generative modeling is among the promising candidates for achieving a practical advantage in data analysis. Nevertheless, one key challenge is to generate large-size images comparable to those generated by their classical counterparts. In this work, we take an initial step in this direction and introduce the Latent Style-based Quantum GAN (LaSt-QGAN), which employs a hybrid classical-quantum approach in training Generative Adversarial Networks (GANs) for arbitrary complex data generation. This novel approach relies on powerful classical auto-encoders to map a high-dimensional original image dataset into a latent representation. The hybrid classical-quantum GAN operates in this latent space to generate an arbitrary number of fake features, which are then passed back to the auto-encoder to reconstruct the original data. Our LaSt-QGAN can be successfully trained on realistic computer vision datasets beyond the standard MNIST, namely Fashion MNIST (fashion products) and SAT4 (Earth Observation images) with 10 qubits, resulting in a comparable performance (and even better in some metrics) with the classical GANs. Moreover, we analyze the barren plateau phenomena within this context of the continuous quantum generative model using a polynomial depth circuit and propose a method to mitigate the detrimental effect during the training of deep-depth networks. Through empirical experiments and theoretical analysis, we demonstrate the potential of LaSt-QGAN for the practical usage in the context of image generation and open the possibility of applying it to a larger dataset in the future.
연구 동기 및 목표
- 대형 사이즈 이미지를 생성할 수 있는 하이브리드 고전-양자 GAN(LaSt-QGAN)을 개발하고 동기를 제시한다.
- 고전적 컨볼루션 오토인코더를 활용해 고차원 이미지를 효율적 양자 생성을 위한 잠재 공간으로 매핑한다.
- 잠재 특징을 재현하고 오토인코더를 통해 이미지를 재구성하기 위해 고전적인 판별기와 함께 양자 생성기를 훈련한다.
- MNIST, FashionMNIST, SAT4에서 LaSt-QGAN을 평가하고 매칭된 고전 GAN과 비교한다.
- 샷 노이즈에 대한 강건성을 조사하고 연속 양자 생성 모델의 학습 가능성을 알리기 위해 배런 플래토 현상을 분석한다.
제안 방법
- 이미지를 차원 Dℓ의 잠재 공간으로 인코딩하기 위해 사전에 학습된 컨볼루션 오토인코더를 사용; 이 잠재 공간에서 양자 생성기 Gθ를 훈련하고 웨스토인 손실과 그래디언트 페널티를 갖는 고전적 판별기 Dφ를 훈련한다.
- 잠재 잡음 z를 회전 각에 주입하는 매개변수화된 양자회로(스타일 기반 생성기)를 사용; L 계층을 사용하고 θℓ = Wℓ z + bℓ (데이터 재업로딩 개념).
- 잠재 특징에서 ⟨σx⟩ 및 ⟨σz⟩를 n 개의 큐비트의 기댓값으로 측정하고 이를 연결해 판별기를 위한 2n 차원 특징 벡터를 형성한다.
- 생성된 잠재 특징을 (사전에 학습된) 오토인코더의 디코더에 전달하여 이미지를 재구성한다; 실제 잠재 특징과 가짜를 맞추는 것을 목표로 하는 워터스틴 거리 오브젝트로 학습한다.
- 여러 양자 회로 구조(Circuits 1–3)를 비교하고 특징과 재구성된 이미지에 대해 FID, IS, JSD로 성능을 정량화한다.
- 학습 동력 및 샷 노이즈에 대한 강건성 평가를 통해 다항 깊이 회로의 초기화 전략을 제시한다.

실험 결과
연구 질문
- RQ1LaSt-QGAN이 고차원 데이터에서 매핑된 잠재 공간에서 작동해 대형 이미지를 생성할 수 있는가?
- RQ2잠재 매개변수 수가 유사한 고전 GAN과 비교할 때 MNIST, FashionMNIST, SAT4 데이터셋에서 LaSt-QGAN의 성능은 어떠한가?
- RQ3생성 품질과 학습 안정성에 대한 양자 회로 깊이와 아키텍처의 영향은 무엇인가?
- RQ4LaSt-QGAN은 샷 노이즈에 얼마나 강건하며, 잠재 플래토 현상을 완화하는 학습 전략은 무엇인가?
주요 결과
| G_theta 구성 | N_Θ | FID ↓ | IS ↑ | JSD (피처/ 10^-2) ↓ | JSD (이미지/ 10^-2) ↓ |
|---|---|---|---|---|---|
| Circ. 1 ( d=2 ) | 1360 | 17.2±0.35 | 8.29±0.02 | 0.79±0.05 | 1.63±0.09 |
| Circ. 1 ( d=4 ) | 2280 | 14.85±0.34 | 8.49±0.04 | 0.75±0.07 | 1.49±0.18 |
| Circ. 1 ( d=6 ) | 3200 | 14.13±0.73 | 8.53±0.05 | 0.71±0.07 | 1.29±0.10 |
| Circ. 2 ( d=2 ) | 1010 | 19.13±0.54 | 8.10±0.06 | 1.22±0.19 | 2.08±0.17 |
| Circ. 2 ( d=4 ) | 1690 | 16.2±0.32 | 8.34±0.03 | 0.94±0.09 | 1.66±0.17 |
| Circ. 2 ( d=6 ) | 2370 | 14.85±0.61 | 8.47±0.06 | 0.85±0.05 | 1.39±0.11 |
| Circ. 3 ( d=2 ) | 3300 | 14.29±0.38 | 8.50±0.04 | 0.76±0.06 | 1.50±0.12 |
| Circ. 3 ( d=4 ) | 6600 | 12.72±0.40 | 8.65±0.05 | 0.71±0.07 | 1.14±0.12 |
| Circ. 3 ( d=6 ) | 9900 | 11.99±0.56 | 8.71±0.04 | 0.72±0.09 | 1.13±0.12 |
| Classical [50,30] | 2960 | 18.24±3.6 | 8.24±0.28 | 3.74±1.64 | 4.51±2.0 |
| Classical [100,50] | 7660 | 12.56±0.91 | 8.80±0.06 | 1.18±0.17 | 1.56±0.13 |
- LaSt-QGAN은 대형 이미지를 생성할 수 있으며 MNIST, FashionMNIST, SAT4에서 고전 GAN과 비슷한 규모의 지표(FID, IS, JSD)와 비교 우수한 지표를 달성한다.
- MNIST와 FashionMNIST에서 여러 회로 깊이에서 고전 GAN보다 수렴 속도가 빠르고 안정성이 더 높게 관찰된다.
- MNIST와 FashionMNIST에서 LaSt-QGAN은 고전 상대방에 비해 JSD 값이 더 낮고 FID/IS 추세가 더 호의적이며 데이터 분포 및 다양성 학습이 더 잘 이루어진다.
- SAT4에서 LaSt-QGAN은 모든 평가 지표에서 고전 GAN보다 우수하며 대략 절반 규모의 매개변수로 달성한다.
- t-SNE 시각화에서 생성된 특징이 클래스 분리 클러스터를 형성하는 것이 보이며 생성에서 잠재 구조가 보존됨을 시사한다.
- 연구는 다항 깊이 회로의 초기화에서 작은 각으로 시작하는 배런 플래토 현상을 완화할 수 있는 방법을 제공하여 연속 양자 생성 모델의 학습 가능성을 높인다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.