QUICK REVIEW

[논문 리뷰] Unsupervised Learning of Disentangled and Interpretable Representations from Sequential Data

Wei-Ning Hsu, Yu Zhang|arXiv (Cornell University)|2017. 09. 22.

Speech Recognition and Synthesis참고 문헌 26인용 수 150

한 줄 요약

제안하는 구조적 계층형 변분 자동인코더(FHVAE)로 시퀀스 데이터의 시퀀스 레벨 및 세그먼트 레벨 속성을 비감독 disentanglement; 음성에서 i-vector baselines 대비 개선 및 mismatched 조건에서 ASR 성능 향상.

ABSTRACT

We present a factorized hierarchical variational autoencoder, which learns disentangled and interpretable representations from sequential data without supervision. Specifically, we exploit the multi-scale nature of information in sequential data by formulating it explicitly within a factorized hierarchical graphical model that imposes sequence-dependent priors and sequence-independent priors to different sets of latent variables. The model is evaluated on two speech corpora to demonstrate, qualitatively, its ability to transform speakers or linguistic content by manipulating different sets of latent variables; and quantitatively, its ability to outperform an i-vector baseline for speaker verification and reduce the word error rate by as much as 35% in mismatched train/test scenarios for automatic speech recognition tasks.

연구 동기 및 목표

시퀀스 데이터에서 다중 스케일 정보를 활용하여 감독 없이 해석 가능한 잠재 요인들을 분리 학습한다.
속성을 시퀀스 레벨(z2) 및 세그먼트 레벨(z1) 잠재 변수로 나누고, 시퀀스 의존 사전 및 시퀀스 독립 사전을 사용한다.
긴 시퀀스를 다루면서 시간적 구조를 보존하기 위해 세그먼트 레벨에서 확장 가능한 추론을 가능하게 한다.
정성적 분석 및 정량적 ASR 및 화자 인증 과제를 통해 해분리된 표현 학습을 시연한다.

제안 방법

두 개의 잠재 변수 집합 z1(세그먼트 레벨)와 z2(시퀀스 레벨) 및 각 시퀀스에 대한 s-벡터 μ2를 갖는 Factorized Hierarchical Variational Autoencoder (FHVAE)를 도입한다.
P(z1)는 시퀀스 독립 사전; P(z2|μ2) 는 시퀀스 의존 사전; P(x|z1,z2)는 평균/분산이 신경망 fμx(·,·) 및 fσ2x(·,·)로 주어진 가우시안이다.
인코더 qφ(z1|x,z2), qφ(z2|x), 및 qφ(μ2)는 LSTM/MLP 네트워크에 의해 매개된 대각 가우시안; 판별적 목적 α log p(i|z2)는 z2가 시퀀스 레벨 속성을 인코딩하도록 한다.
Seq2Seq-FHVAE 아키텍처를 활용하여 전체 시퀀스가 아닌 세그먼트 레벨 하한(lower bound)을 평가함으로써 세그먼트 레벨 최적화와 확장성을 가능하게 한다.
Eq. 5에 따른 닫힌 형식 근사치를 사용한 테스트 시간 μ2 추론을 z2 사후분포를 이용해 제공하여 발화 수준 표현으로의 사용을 가능하게 한다.

실험 결과

연구 질문

RQ1비감독 학습 없이도 분해된 해석 가능한 시퀀스 레벨 및 세그먼트 레벨 잠재 요인을 시퀀스 데이터에서 학습할 수 있는가?
RQ2음성에서 세그먼트 레벨(z1) 및 시퀀스 레벨(z2) 잠재가 각각 언어적 내용과 화자/채널 속성과 일치하는가?
RQ3학습된 잠재 변수들이 i-vector 및 β-VAE 특징과 같은 기준값과 비교하여 화자 검증 및 도메인 불변 ASR을 향상시키는가?
RQ4ASR의 도메인 불일치에 대해 세그먼트 레벨 잠재 표현이 견고하고 음성 변환 또는 잡음 제거 작업에 유용한가?

주요 결과

특징	차원	알파	원시	LDA (12 차원)	LDA (24 차원)
i-vector	48	-	10.12%	6.25%	5.95%
i-vector	100	-	9.52%	6.10%	5.50%
i-vector	200	-	9.82%	6.54%	6.10%
μ2	16	0	5.06%	4.02%	-
μ2	16	1e-1	4.91%	4.61%	-
μ2	16	1	3.87%	3.86%	-
μ2	16	1e1	2.38%	2.08%	-
μ2	32	1e1	2.38%	2.08%	1.34%

화자 검증(TIMIT)에서 μ2(16–32 차원)는 Raw 및 LDA 설정에서 i-vector 기준을 능가하며, μ2를 32차원으로 하고 α=10^1일 때 2.38% EER까지 달성.
도메인 불일치 ASR(Aurora-4)에서 잠재 z1 특징은 소음/채널 조건 전반에 걸쳐 WER를 크게 감소시키며 여러 불일치 도메인에서 FBank 및 β-VAE 기준을 능가한다.
z2를 다른 화자로 교체하면 언어 내용은 보존하면서 음성 변환 출력을 얻을 수 있어 화자와 내용의 해분리성을 뚜렷이 보여준다.
정성적 분석은 z1이 세그먼트 수준의 언어적 내용을 포착하고 z2가 시퀀스 수준 속성을 포착함을 보여주며, μ2 관련 표현을 교환해 잡음 제거를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.