Skip to main content
QUICK REVIEW

[論文レビュー] Scaling Quantum Machine Learning without Tricks: High-Resolution and Diverse Image Generation

Jonas Jäger, Florian J. Kiwit|arXiv (Cornell University)|Feb 27, 2026
Quantum Computing Algorithms and Architecture被引用数 0
ひとこと要約

この論文は、ディメンショナルな削減やパッチ適用を行うことなく、フル解像度で多様な MNIST、Fashion-MNIST、SVHN 画像を生成するための単一のエンドツーエンド量子 Wasserstein GAN を訓練し、タスク固有の量子回路設計と多モーダルノイズを用いてショットノイズ下で高品質な結果を達成します。

ABSTRACT

Quantum generative modeling is a rapidly evolving discipline at the intersection of quantum computing and machine learning. Contemporary quantum machine learning is generally limited to toy examples or heavily restricted datasets with few elements. This is not only due to the current limitations of available quantum hardware but also due to the absence of inductive biases arising from application-agnostic designs. Current quantum solutions must resort to tricks to scale down high-resolution images, such as relying heavily on dimensionality reduction or utilizing multiple quantum models for low-resolution image patches. Building on recent developments in classical image loading to quantum computers, we circumvent these limitations and train quantum Wasserstein GANs on the established classical MNIST and Fashion-MNIST datasets. Using the complete datasets, our system generates full-resolution images across all ten classes and establishes a new state-of-the-art performance with a single end-to-end quantum generator without tricks. As a proof-of-principle, we also demonstrate that our approach can be extended to color images, exemplified on the Street View House Numbers dataset. We analyze how the choice of variational circuit architecture introduces inductive biases, which crucially unlock this performance. Furthermore, enhanced noise input techniques enable highly diverse image generation while maintaining quality. Finally, we show promising results even under quantum shot noise conditions.

研究の動機と目的

  • パッチ適用や次元削減といったトリックを使わず、標準ベンチマークでエンドツーエンドの量子画像生成をフル解像度で実証する。
  • 訓練バイアスとしてのタスク特化型量子回路設計(帰納的偏り)が、スケーラブルで多様性の高い高品質な画像生成を可能にすることを示す。
  • 多モーダルノイズ入力とショットノイズが性能と多様性に与える影響を調査する。
  • タスクに合わせた回路アーキテクチャが、一般的でタスク非依存の設計よりも優れているという経験的証拠を提供する。

提案手法

  • Wasserstein-GAN フレームワーク(WGAN-GP)における量子ジェネレーターと古典的ディスクリームを用いた量子 GAN を用いる。
  • 次元削減なしにフルサイズの画像生成を可能にするため FRQI 関連表現を用いて画像をエンコードする。
  • 多モーダルで学習可能なノイズ入力を導入し、多様な生成を促しモード崩壊を回避する。
  • FRQI エンコーディングに合わせたタスク特化型量子回路アンサッツを設計(層状ノイズアップロード、アドレス量子ビットのエンタングルメント、カラー量子ビット回転を含む)。
  • 量子状態を画像へデコードし、古典的ディスクリミネータを訓練して Wasserstein ロスによる勾配信号を提供する。
  • MNIST、Fashion-MNIST、SVHN(カラー)で評価し、品質(FID)と多様性を評価する。ショットノイズの考慮も含む。
Figure 1 : Overview of the proposed QGAN generator and training workflow for a $4\times 4$ -pixel grayscale image. (1) Noise Sampling: a multimodal latent distribution is formed by uniformly sampling a discrete mode index $m\in\{1,2\}$ and drawing Gaussian noise $\varepsilon_{a}\sim\mathcal{N}(0,1)$
Figure 1 : Overview of the proposed QGAN generator and training workflow for a $4\times 4$ -pixel grayscale image. (1) Noise Sampling: a multimodal latent distribution is formed by uniformly sampling a discrete mode index $m\in\{1,2\}$ and drawing Gaussian noise $\varepsilon_{a}\sim\mathcal{N}(0,1)$

実験結果

リサーチクエスチョン

  • RQ1エンドツーエンドの量子ジェネレーターは、ディメンショナル削減やパッチベースの方法を用いずに標準ベンチマークで高品質かつフル解像度の画像を生成できるか。
  • RQ2タスク特化型の量子回路設計と FRQI 的エンコーディングは、スケーラブルな量子画像生成を可能にする帰納的偏りを提供するか。
  • RQ3多モーダルノイズ入力とショットノイズ条件は、量子生成モデルの画像品質と多様性にどのように影響するか。
  • RQ4アーキテクチャの選択は、従来のパッチベースまたは汎用的な QGAN アプローチと比較してどの程度性能に影響を与えるか。

主な発見

  • 大規模 QGAN(64 層、40 のノイズモード)は、すべての10クラスの MNIST および Fashion-MNIST を高品質な視覚表現と豊かなクラス内多様性で生成する(FID: MNIST 118、Fashion-MNIST 91、SVHN 84)。
  • タスク特化型ジェネレーター設計と FRQI エンコーディングは、タスク非依存および振幅ベースの構成より顕著に優れており、エッジがはっきりした画像とより良い彩度バランスを実現する。
  • 学習可能な調整を伴う多モーダルノイズは、クラス内変動を改善しモード混合を低減する。単一モーダルおよび固定多モーダル設定よりも優れている(消去実験での FID 改善例)。
  • クラスあたり複数のノイズモードを用いるオーバーモーディングは、クラス内多様性を高め、ブーツとドレスのように細かなサブクラスを明示的に示すことができる。
  • 有限ショットノイズの下での訓練はピクセル情報を保持し、アドレス量子ビット全体にわたってよりロバストで均一分布する周辺確率を生み出し、ハードウェア上でのスケーラビリティを支援する。
Figure 2 : Illustration of multimodal noise modeling (left to right). Quantum circuit perspective of implementing a bimodal mixture distribution via controlled rotations sampling the classical bit $m$ uniformly and $\varepsilon$ normally (unimodal). $z_{0}$ and $z_{1}$ denote the tuned noise (shifte
Figure 2 : Illustration of multimodal noise modeling (left to right). Quantum circuit perspective of implementing a bimodal mixture distribution via controlled rotations sampling the classical bit $m$ uniformly and $\varepsilon$ normally (unimodal). $z_{0}$ and $z_{1}$ denote the tuned noise (shifte

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。