[논문 리뷰] Quantum-Inspired Self-Attention in a Large Language Model
논문은 고전 물리에서 영감을 받은 자기-주목(QISA)과 그 배포 가능한 변형 QISA-A를 도입하고 이를 GPT-1에 통합하여 CER, WER, 교차 엔트로피에서 표준 자기-주목 대비 성능 향상을 보였으며, 추론 시간은 소폭 증가했다.
Recent advances in Natural Language Processing have been predominantly driven by transformer-based architectures, which rely heavily on self-attention mechanisms to model relationships between tokens in a sequence. Similarly, the field of Quantum Natural Language Processing, which seeks to leverage quantum principles to address challenges in language understanding and generation tasks, has seen the recent development of quantum self-attention mechanisms. We propose a classical quantum-inspired self-attention (QISA) mechanism and integrate it into the full autoregressive language modeling pipeline of GPT-1. To the best of our knowledge, this is the first integration of this kind, as previous quantum self-attention mechanisms have been primarily tested on text classification. In our experiments, QISA achieves better performance when compared to standard self-attention on the metrics character error rate ($15.5 imes$ better), word error rate ($4.7 imes $) and cross-entropy loss ($13 imes$). This is achieved while only requiring a $ 2.6 imes$ longer inference time.
연구 동기 및 목표
- 표준 트랜스포머의 자기-주목이 점점 증가하는 계산 비용으로 인해 대안의 필요성을 제기한다.
- 자연어 모델링 파이프라인에 통합되는 고전적 양자에서 영감을 받은 자기-주목 메커니즘(QISA)과 그 배포 가능한 변형(QISA-A)을 제안한다.
- Shakespeare 텍스트를 이용한 GPT-1 기반 설정에서 QISA/QISA-A를 CSA 및 QSANN 변형과 비교하여 경험적으로 평가한다.
- QISA/QISA-A가 QSAs에 비해 우수하거나 동등한 성능을 보이면서 합리적인 추론 속도를 유지하는지 demonstrat한다.
- 더 큰 임베딩 크기와 향후 양자 하드웨어에 대한 가능성 있는 확장성 및 매개변수 효율성에 대해 논의한다.
제안 방법
- 다중-헤드 자기-주목의 고전적 값 계층을 Pauli 관측 기대값에 기반한 양자 영감을 받은 값 계산으로 교체한다.
- 학습 가능한 선형 맵과 Pauli 문자열을 사용하여 토큰별 특징을 양자 측정에 비유하여 계산한다(방정식 6-8).
- Q와 K는 고전적 선형 투사로 유지하되 양자에서 영감을 받은 V의 고전적 시뮬레이션을 도입한다(또는 QISA-A의 양자 해설).
- QISA, QISA-A 및 세 가지 QSANN 변형을 표준 인과 마스킹이 적용된 완전한 자기회귀 파이프라인의 GPT-1에 통합한다.
- Shakespeare 텍스트를 문자 단위 토크나이저로 구성된 다양한 구성에서 학습 및 평가하고 CE, CER, WER 지표를 비교한다.
- 시뮬레이션된 양자 모델의 하이어스티브 시야에서 진화된 관측값을 캐시하여 추론 시간 최적화를 제공한다.

실험 결과
연구 질문
- RQ1양자에서 영감을 받은 자기-주목(QISA)이 CSA에 비해 언어 모델링 작업에서 표준 자기-주목의 성능을 개선하는가?
- RQ2QISA가 GPT-1 자기회귀 설정에서 교차 엔트로피 손실, CER, WER 측면에서 QSANN 변형들과 어떻게 비교되는가?
- RQ3GPT-1에 통합될 때 QISA 및 QISA-A의 매개변수 및 지연 시간 영향은 CSA 및 QSANN에 비해 어떠한가?
- RQ4더 적은 매개변수로 유사한 성능을 달성하는 양자 배포 가능한 변형(QISA-A)이 향후 양자 하드웨어에 적합한가?
- RQ5임베딩 크기와 헤드 수가 QISA/QISA-A와 CSA의 상대 성능에 어떤 영향을 미치는가?
주요 결과
| Model | Embedding 4, 1 head CE | CER | WER | Embedding 16, 1 head CE | CER | WER | Embedding 16, 4 heads CE | CER | WER |
|---|---|---|---|---|---|---|---|---|---|
| CSA | 2.72±0.05 | 0.74±0.10 | 1.34±0.48 | 2.16±0.07 | 0.62±0.12 | 1.17±0.36 | 2.16±0.07 | 0.62±0.11 | 1.18±0.37 |
| QISA | 2.30±0.07 | 0.68±0.11 | 1.02±0.19 | 0.16±0.00 | 0.04±0.02 | 0.25±0.19 | 0.16±0.00 | 0.04±0.02 | 0.25±0.18 |
| QISA-A (1 head) | 2.27±0.06 | 0.680±0.12 | 1.06±0.19 | 0.16±0.00 | 0.04±0.02 | 0.04±0.02 | 0.16±0.00 | 0.04±0.02 | 0.04±0.02 |
| QISA-A (2 heads) | 2.28±0.07 | 0.679±0.10 | 1.05±0.20 | 0.16±0.00 | 0.04±0.02 | 0.04±0.02 | 0.17±0.01 | 0.04±0.02 | 0.04±0.02 |
| QISA-A (3 heads) | 2.27±0.06 | 0.679±0.10 | 1.06±0.19 | 0.16±0.00 | 0.04±0.02 | 0.04±0.02 | 0.16±0.00 | 0.04±0.02 | 0.04±0.02 |
| QSANN (1 head) | 2.34±0.07 | 0.69±0.09 | 1.34±0.45 | 2.33±0.07 | 0.68±0.09 | 1.34±0.46 | 2.33±0.07 | 0.70±0.10 | 1.35±0.45 |
| QSANN (2 heads) | 2.33±0.07 | 0.68±0.09 | 1.33±0.46 | 2.33±0.07 | 0.68±0.09 | 1.34±0.46 | 2.33±0.07 | 0.70±0.10 | 1.35±0.45 |
| QSANN (3 heads) | 2.35±0.08 | 0.70±0.10 | 1.35±0.45 | 2.35±0.07 | 0.69±0.10 | 1.35±0.45 | 2.35±0.08 | 0.70±0.10 | 1.35±0.45 |
| QSANNv1 (1 head) | 2.35±0.07 | 0.70±0.09 | 1.33±0.46 | 2.34±0.07 | 0.71±0.09 | 1.34±0.45 | 2.36±0.07 | 0.69±0.09 | 1.32±0.47 |
| QSANNv1 (2 heads) | 2.34±0.07 | 0.71±0.09 | 1.34±0.45 | 2.34±0.07 | 0.73±0.10 | 1.34±0.45 | 2.34±0.07 | 0.69±0.09 | 1.34±0.45 |
| QSANNv1 (3 heads) | 2.36±0.07 | 0.69±0.09 | 1.32±0.47 | 2.36±0.07 | 0.69±0.09 | 1.34±0.45 | 2.36±0.07 | 0.69±0.09 | 1.32±0.47 |
| QSANNv2 (1 head) | 2.29±0.07 | 0.68±0.10 | 1.49±0.44 | 2.28±0.07 | 0.67±0.10 | 1.49±0.44 | 2.30±0.07 | 0.69±0.10 | 1.48±0.44 |
| QSANNv2 (2 heads) | 2.28±0.07 | 0.21? | 0.22? | 0.21? | 0.22? | 0.07? | 0.21? | 0.18? | 0.18? |
- QISA는 임베딩 크기 16에서 CSA에 비해 CER(15.5×), WER(4.7×) 및 교차 엔트로피 손실을 각각 크게 개선했다.
- QISA와 QISA-A는 대부분의 구성에서 CE, CER, WER 측면에서 CSA를 능가하며, 더 큰 임베딩 크기가 이득을 증가시킨다.
- QSANN 변형들은 경쟁력 있는 성능을 보이지만 보고된 지표에서 QISA가 종종 이를 상회하거나 대등하다.
- QISA의 추론 시간은 CSA보다 2.6× 길고, 시뮬레이션 양자 모델의 학습 시간은 현저히 더 길다.
- QISA-A는 매개변수 효율성이 더 높아 비슷한 성능을 달성하며 향후 양자 하드웨어에서 장점이 있을 수 있다.
- QM에서 영감을 받은 모델은 여러 구성에서 헤드당 매개변수가 CSA보다 적은 경향이 있어 매개변수 효율성을 시사한다(특히 QSANNv1/v2).

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.