Skip to main content
QUICK REVIEW

[논문 리뷰] Quantum Inspired Training for Boltzmann Machines

Nathan Wiebe, Ashish Kapoor|arXiv (Cornell University)|2015. 07. 09.
Generative Adversarial Networks and Image Synthesis참고 문헌 9인용 수 21
한 줄 요약

이 논문은 깊이 있는 볼츠만 기계(DBMs)를 훈련하기 위한 양자 학습 방법에서 영감을 얻은 고전적 알고리즘인 도구적 기각 샘플링(Instrumental Rejection Sampling, IRS)을 소개한다. 변분 근사와 α=2 발산을 최소화하는 최적의 도구 분포를 사용한 기각 샘플링을 조합함으로써, 저차수 대비 대비 기울기보다 더 정확한 기울기를 얻고, 깊이에 따라 유리하게 스케일링되며, 오차 감소를 병렬화할 수 있어, 양자 하드웨어 없이도 효율적이고 고정밀도의 DBM 훈련을 위한 실용적인 길을 제시한다.

ABSTRACT

We present an efficient classical algorithm for training deep Boltzmann machines (DBMs) that uses rejection sampling in concert with variational approximations to estimate the gradients of the training objective function. Our algorithm is inspired by a recent quantum algorithm for training DBMs. We obtain rigorous bounds on the errors in the approximate gradients; in turn, we find that choosing the instrumental distribution to minimize the alpha=2 divergence with the Gibbs state minimizes the asymptotic algorithmic complexity. Our rejection sampling approach can yield more accurate gradients than low-order contrastive divergence training and the costs incurred in finding increasingly accurate gradients can be easily parallelized. Finally our algorithm can train full Boltzmann machines and scales more favorably with the number of layers in a DBM than greedy contrastive divergence training.

연구 동기 및 목표

  • 최근에 제안된 양자 알고리즘의 고전적 동료를 개발하여 이론적 이점을 유지한다.
  • 대비 기울기 훈련의 핵심적 한계인 간선의 암묵적 방향성과 병렬화 가능한 정확도 향상의 부재를 극복한다.
  • 전체 볼츠만 기계와 깊이 있는 아키텍처를 더 나은 기울기 추정으로 훈련하기 위한 엄밀하고 효율적이며 확장 가능한 방법을 제공한다.
  • 기각 샘플링에서 점점 더 작은 점근적 알고리즘 복잡도와 기울기 오차를 최소화하는 최적의 도구 분포를 규명한다.
  • 양자 영감을 받은 샘플링의 고전적 구현이 깊이 있는 생성 모델 훈련에서 실용적 이점을 낳을 수 있는지 보여준다.

제안 방법

  • 이 방법은 볼츠만 기계의 진정한 깁스 분포를 근사하기 위해 변분 도구 분포 Q를 사용한 기각 샘플링을 적용한다.
  • 도구 분포는 깁스 상태와의 α=2 발산을 최소화하도록 선택되며, 이는 샘플링 과정의 점근적 알고리즘 복잡도를 최적화한다.
  • 두 가지 핵심 근사가 사용된다: 평균장 분포와 α=2 발산을 최소화하는 분포로, 이들은 고차원 공간에서의 열악한 성능을 방지하기 위해 볼록 조합(γQ_MF + (1−γ)Q_α=2)으로 조합된다.
  • 알고리즘은 두 개의 별도된 기각 샘플링 루프를 사용한다: 하나는 모델 분포(근사 공동 분포에서 샘플링)를 위해, 다른 하나는 데이터 분포(가시 단위가 주어진 조건부 분포에서 샘플링)를 위해.
  • 최대우도 목적함수의 기울기는 양분포에서 수락된 샘플들에 대한 가시 단위와 은닉 단위 활성도의 경험 평균을 계산하여 추정된다.
  • 이 방법은 대비 기울기와 달리, 근사의 순서를 증가시키지 않고도 샘플링 과정을 병렬화할 수 있다.

실험 결과

연구 질문

  • RQ1고전적 알고리즘이 최근에 제안된 양자 알고리즘의 이론적 이점을 깊이 있는 볼츠만 기계 훈련에서 재현할 수 있는가?
  • RQ2기각 샘플링에서 DBM 훈련에 대해 점근적 복잡도와 기울기 오차를 최소화하는 최적의 도구 분포는 무엇인가?
  • RQ3평균장과 α=2 발산 기반 근사를 조합하면 고차원 모델에서 샘플링 효율성과 기울기 정확도가 어떻게 향상되는가?
  • RQ4기각 샘플링 접근법은 대비 기울기와 달리 병렬화되어 저차수 근사 초월한 기울기 정확도 향상을 달성할 수 있는가?
  • RQ5저항 기울기 훈련과 비교해 볼 때, 제안된 방법은 깊이 있는 볼츠만 기계의 층 수 증가에 따라 어떻게 스케일링되는가?

주요 결과

  • 깁스 상태와의 α=2 발산을 최소화하는 도구 분포는 가장 낮은 점근적 알고리즘 복잡도를 제공하며, 최적의 샘플링에 대한 이론적 기초를 마련한다.
  • κ_A ≈ 1인 작은 경우, 하이브리드 도구 분포(γ=0.5)는 평균장 근사와 유사한 성능을 보이며, κ_A ≈ 211인 큰 경우, 개별 근사보다 약 45% 높은 확률 질량 처리 능력을 보여, 둘 다를 능가한다.
  • IRS 방법은 저차수 대비 대비 기울기보다 더 정확한 기울기를 생성하여 모델 최적화를 향상시킨다.
  • IRS에서 더 높은 기울기 정확도를 얻는 데 드는 비용은 대비 기울기와 달리 효율적으로 병렬화할 수 있다.
  • 그리드 대비 기울기 훈련보다 DBM의 층 수 증가에 대해 더 유리하게 스케일링되며, 더 깊은 아키텍처에 적합하다.
  • 이 방법은 DBM에 국한되지 않으며, 잠재 변수를 가진 일반적인 무향 그래프 모델에도 적용 가능하여 적용 범위를 넓힌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.