Skip to main content
QUICK REVIEW

[논문 리뷰] A Stein variational Newton method

Gianluca Detommaso, Tiangang Cui|arXiv (Cornell University)|2018. 06. 08.
Markov Chains and Monte Carlo Methods참고 문헌 28인용 수 42
한 줄 요약

본 논문은 Stein 변분 경사 하강법(SVGD)을 2차(뉴턴과 유사) 정보를 샘플러에 통합함으로써 확장하고, 수렴 속도를 높이기 위한 기하학적으로 인지된 커널을 갖는 Stein 변분 뉴턴(SVN) 방법을 도입한다.

ABSTRACT

Stein variational gradient descent (SVGD) was recently proposed as a general purpose nonparametric variational inference algorithm [Liu & Wang, NIPS 2016]: it minimizes the Kullback-Leibler divergence between the target distribution and its approximation by implementing a form of functional gradient descent on a reproducing kernel Hilbert space. In this paper, we accelerate and generalize the SVGD algorithm by including second-order information, thereby approximating a Newton-like iteration in function space. We also show how second-order information can lead to more effective choices of kernel. We observe significant computational gains over the original SVGD algorithm in multiple test cases.

연구 동기 및 목표

  • 도전적인 타깃 분포에 대한 비모수적 변분 추론의 가속 동기를 제시
  • 함수 공간에서 운송 맵을 위한 뉴턴 유사 반복을 도입
  • 2차 정보 활용으로 커널 선택과 입자 이동을 개선
  • RKHS에서 뉴턴 방향을 계산하기 위한 확장 가능한 근사화를 제시
  • 실험을 통해 계산 이점과 커널 설계의 이점을 보여준다

제안 방법

  • KL 목표의 국소 2차 근사를 최소화하기 위한 운송 맵 공간에서의 뉴턴 유사 방향을 정의한다
  • 유한 차원의 선형 시스템을 통해 뉴턴 방향을 계산하기 위해 갈레르킨(커널) 표현을 도출한다
  • 확장성을 위한 비정확한 뉴턴–CG 및 블록 대각 해시안 근사 도입
  • RKHS에서 거리 적응을 위한 평균 해시안 M_p를 사용하여 기하학적으로 인지된 이방성 커널을 개발
  • SVGD와 SVN 반복을 각각 상세히 기술한 알고리즘 1과 2를 제공한다
  • 고차원 문제를 위한 해시안 기반 커널 정규화(g(d) 인자 포함)로 규모 확장 및 커널 선택을 논의한다

실험 결과

연구 질문

  • RQ1Stein 변분 방법의 샘플링 수렴 속도를 2차 정보를 통해 가속할 수 있는가?
  • RQ2곡률 정보를 포함하는 커널을 설계하여 고확률 영역에서 수송을 개선할 수 있는가?
  • RQ3계산량을 줄이면서 퇴하를 보존하는 확장 가능한 근사법(블록 대각, 비정확한 뉴턴)은 무엇인가?
  • RQ4기하학적으로 인지된 커널이 도전적인 베이지안 추론 과제에서 등방성 커널보다 우수한가?

주요 결과

  • 2차 정보를 가진 SVN은 테스트 케이스에서 표준 SVGD보다 빠르게 수렴한다
  • 기하학적으로 인지된 해시안 커널이 수렴 속도와 입자 분포를 크게 향상시킨다
  • 블록 대각 및 비정확한 뉴턴–CG 근사는 반복당 유사한 진행으로 확장 가능한 대안을 제공한다
  • 스케일링된 해시안 커널은 고차원 설정에서 견고한 성능 유지를 돕는다
  • SVN-H(해시안 커널을 사용하는 뉴턴)는 고차원 확산 실험에서 정확한 사후 평균 및 신뢰 구간을 달성한다
  • 해당 방법이 Langevin SDE 예에서 참조 MCMC와 좋은 일치를 보인다

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.