QUICK REVIEW

[논문 리뷰] Sequential Neural Models with Stochastic Layers

M. Fraccaro, Søren Kaae Sønderby|arXiv (Cornell University)|2016. 05. 24.

Music and Audio Processing인용 수 158

한 줄 요약

논문은 구조화된 상태 공간 모델을 결합한 결정론적 RNN과 확률적 구성 요소를 포함하는 확률적 순환 신경망(SRNN)을 소개한다. Blizzard 및 TIMIT 음성 데이터 세트에서 최첨단 성능을 달성하고 polyphonic 음악에서도 경쟁력 있게 수행한다.

ABSTRACT

How can we efficiently propagate uncertainty in a latent state representation with recurrent neural networks? This paper introduces stochastic recurrent neural networks which glue a deterministic recurrent neural network and a state space model together to form a stochastic and sequential neural generative model. The clear separation of deterministic and stochastic layers allows a structured variational inference network to track the factorization of the model's posterior distribution. By retaining both the nonlinear recursive structure of a recurrent neural network and averaging over the uncertainty in a latent path, like a state space model, we improve the state of the art results on the Blizzard and TIMIT speech modeling data sets by a large margin, while achieving comparable performances to competing methods on polyphonic music modeling.

연구 동기 및 목표

잠재 시퀀스 표현에서 불확실성의 효율적인 전파를 촉진한다.
결정론적 계층과 확률적 계층을 명확히 분리하는 확률적 순환 아키텍처를 제안한다.
모델의 사후분포 분해를 반영하는 구조화된 변분 추론 네트워크를 개발한다.
음성 모델링에서 최첨단 성능과 음악 모델링에서 경쟁력 있는 결과를 입증한다.

제안 방법

게이트드 RNN(GRU 기반) 위에 비선형 상태-공간 모델을 쌓아 확률적 순환 신경망(SRNN)을 형성한다.
합동 생성 모델 p_theta(x1:T, z1:T, d1:T)를 p(x_t|z_t,d_t) p(z_t|z_{t-1},d_t) p(d_t|d_{t-1},u_t)로 인수분해한다.
미래 관측치와 상태를 이용해 z_t을 근사하기 위해 역방향 RNN을 활용하는 구조화된 추론 네트워크 q_phi(z1:T, d1:T|x1:T, u1:T)를 사용한다.
경사 기반 최적화를 위한 ELBO(F(theta, phi))와 재매개화(trick)를 이용한 변분 추론을 적용한다.
사전 예측 동역학을 q_phi*(z_{t-1})의 샘플을 통해 도입하여 추론 네트워크를 개선하는 잔차 기반 매개변수화(Res_q)를 도입한다.
추론 네트워크에 대해 스무딩(역방향)과 필터링 변형을 모두 제공한다.

실험 결과

연구 질문

RQ1게이트된 비선형성의 이점을 보존하면서 RNN 위의 확률적 잠재 계층이 시퀀스 데이터의 불확실성을 효과적으로 모델링할 수 있는가?
RQ2비선형 상태-공간 계층과 구조화된 변분 사후분포를 도입하면 음성 및 음악 데이터의 예측 성능이 향상되는가?
RQ3미래 정보를 활용하고 계산적으로 다루기 쉬운 효율적인 학습을 유지하도록 추론 네트워크를 어떻게 설계해야 하는가?
RQ4시퀀스 모델에서 결정론적 구성요소와 확률적 구성요소를 분리하는 것이 사후 추론에 어떤 실용적 이점이 있는가?

주요 결과

SRNN은 Blizzard와 TIMIT 음성 모델링 작업에서 최첨단 또는 경쟁력 있는 성능을 달성한다.
미래 정보를 통합하는 구조화된 변분 사후분포(스무딩)가 단독 필터링에 비해 ELBO와 예측가능도를 향상시킨다.
추론 네트워크에서 잔차 매개변수화를 사용하면 대다수의 경우 성능이 더 향상된다.
SRNN은 다성 음악 데이터셋에서 경쟁력 있는 결과를 얻어 여러 동시대 방법들과 비견된다.
결정론적 RNN 코어를 확률적 상태-공간 계층으로부터 분리하면 추론과 학습이 단순해지면서도 모델링 능력을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.