Skip to main content
QUICK REVIEW

[논문 리뷰] Sequential Neural Models with Stochastic Layers

M. Fraccaro, Søren Kaae Sønderby|arXiv (Cornell University)|2016. 05. 24.
Music and Audio Processing인용 수 158
한 줄 요약

논문은 구조화된 상태 공간 모델을 결합한 결정론적 RNN과 확률적 구성 요소를 포함하는 확률적 순환 신경망(SRNN)을 소개한다. Blizzard 및 TIMIT 음성 데이터 세트에서 최첨단 성능을 달성하고 polyphonic 음악에서도 경쟁력 있게 수행한다.

ABSTRACT

How can we efficiently propagate uncertainty in a latent state representation with recurrent neural networks? This paper introduces stochastic recurrent neural networks which glue a deterministic recurrent neural network and a state space model together to form a stochastic and sequential neural generative model. The clear separation of deterministic and stochastic layers allows a structured variational inference network to track the factorization of the model's posterior distribution. By retaining both the nonlinear recursive structure of a recurrent neural network and averaging over the uncertainty in a latent path, like a state space model, we improve the state of the art results on the Blizzard and TIMIT speech modeling data sets by a large margin, while achieving comparable performances to competing methods on polyphonic music modeling.

연구 동기 및 목표

  • 잠재 시퀀스 표현에서 불확실성의 효율적인 전파를 촉진한다.
  • 결정론적 계층과 확률적 계층을 명확히 분리하는 확률적 순환 아키텍처를 제안한다.
  • 모델의 사후분포 분해를 반영하는 구조화된 변분 추론 네트워크를 개발한다.
  • 음성 모델링에서 최첨단 성능과 음악 모델링에서 경쟁력 있는 결과를 입증한다.

제안 방법

  • 게이트드 RNN(GRU 기반) 위에 비선형 상태-공간 모델을 쌓아 확률적 순환 신경망(SRNN)을 형성한다.
  • 합동 생성 모델 p_theta(x1:T, z1:T, d1:T)를 p(x_t|z_t,d_t) p(z_t|z_{t-1},d_t) p(d_t|d_{t-1},u_t)로 인수분해한다.
  • 미래 관측치와 상태를 이용해 z_t을 근사하기 위해 역방향 RNN을 활용하는 구조화된 추론 네트워크 q_phi(z1:T, d1:T|x1:T, u1:T)를 사용한다.
  • 경사 기반 최적화를 위한 ELBO(F(theta, phi))와 재매개화(trick)를 이용한 변분 추론을 적용한다.
  • 사전 예측 동역학을 q_phi*(z_{t-1})의 샘플을 통해 도입하여 추론 네트워크를 개선하는 잔차 기반 매개변수화(Res_q)를 도입한다.
  • 추론 네트워크에 대해 스무딩(역방향)과 필터링 변형을 모두 제공한다.

실험 결과

연구 질문

  • RQ1게이트된 비선형성의 이점을 보존하면서 RNN 위의 확률적 잠재 계층이 시퀀스 데이터의 불확실성을 효과적으로 모델링할 수 있는가?
  • RQ2비선형 상태-공간 계층과 구조화된 변분 사후분포를 도입하면 음성 및 음악 데이터의 예측 성능이 향상되는가?
  • RQ3미래 정보를 활용하고 계산적으로 다루기 쉬운 효율적인 학습을 유지하도록 추론 네트워크를 어떻게 설계해야 하는가?
  • RQ4시퀀스 모델에서 결정론적 구성요소와 확률적 구성요소를 분리하는 것이 사후 추론에 어떤 실용적 이점이 있는가?

주요 결과

  • SRNN은 Blizzard와 TIMIT 음성 모델링 작업에서 최첨단 또는 경쟁력 있는 성능을 달성한다.
  • 미래 정보를 통합하는 구조화된 변분 사후분포(스무딩)가 단독 필터링에 비해 ELBO와 예측가능도를 향상시킨다.
  • 추론 네트워크에서 잔차 매개변수화를 사용하면 대다수의 경우 성능이 더 향상된다.
  • SRNN은 다성 음악 데이터셋에서 경쟁력 있는 결과를 얻어 여러 동시대 방법들과 비견된다.
  • 결정론적 RNN 코어를 확률적 상태-공간 계층으로부터 분리하면 추론과 학습이 단순해지면서도 모델링 능력을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.