QUICK REVIEW

[논문 리뷰] WHAI: Weibull Hybrid Autoencoding Inference for Deep Topic Modeling

Hao Zhang, Bo Chen|arXiv (Cornell University)|2018. 03. 04.

Generative Adversarial Networks and Image Synthesis참고 문헌 32인용 수 51

한 줄 요약

WHAl combines stochastic-gradient MCMC with a Weibull-based variational encoder to perform scalable, fast out-of-sample inference for deep topic models with a DLDA-based decoder.

ABSTRACT

To train an inference network jointly with a deep generative topic model, making it both scalable to big corpora and fast in out-of-sample prediction, we develop Weibull hybrid autoencoding inference (WHAI) for deep latent Dirichlet allocation, which infers posterior samples via a hybrid of stochastic-gradient MCMC and autoencoding variational Bayes. The generative network of WHAI has a hierarchy of gamma distributions, while the inference network of WHAI is a Weibull upward-downward variational autoencoder, which integrates a deterministic-upward deep neural network, and a stochastic-downward deep generative model based on a hierarchy of Weibull distributions. The Weibull distribution can be used to well approximate a gamma distribution with an analytic Kullback-Leibler divergence, and has a simple reparameterization via the uniform noise, which help efficiently compute the gradients of the evidence lower bound with respect to the parameters of the inference network. The effectiveness and efficiency of WHAI are illustrated with experiments on big corpora.

연구 동기 및 목표

대규모 코퍼라에서도 잘 작동하는 깊은 다층 토픽 모델에 대한 확장 가능한 추론을 동기 부여합니다.
희소하고 음이 아닌 잠재 문서 표현에 대한 포스트eri어를 효율적으로 근사할 수 있는 추론 네트워크를 개발합니다.
전역 매개변수와 지역 매개변수를 추론하기 위해 확률적 경사 MCMC와 자동 인코딩 변분 Bayesian의 하이브리드를 통합합니다.
KL 항이 해석적으로 가능한 Weibull 기반 인코더를 활용하여 감마 포스터리오를 근사하고 간단한 재매개변수를 이용한 샘플링을 가능하게 합니다.
대규모 텍스트 데이터셋에서 경쟁 추론 전략보다 향상된 성능과 속도를 입증합니다.

제안 방법

생성기로서 DLDA(깊은 포아송/감마 토픽 모델)을 사용하여 계층적 문서 표현을 포착합니다.
상향-하향 추론 네트워크(WUDVE)를 설계하여 하향 생성 모델에 확률적 신경망 피드를 제공합니다.
인코더에서 감마-조건부를 Weibull 분포로 근사하여 해석적 KL 항과 재매개변 샘플링을 가능하게 합니다.
글로벌 매개변수를 TLASGR-MCMC로 업데이트하고 로컬 매개변수는 Weibull 인코더로 업데이트하는 하이브드 추론 알고리즘을 사용하여 빠르고 정확한 포스터리어 추론을 가능하게 합니다.
상향-하향 경로의 효과와 분포 선택의 영향을 분리하기 위해 GHAI 및 WAI를 포함한 변형들을 비교합니다.

실험 결과

연구 질문

RQ1WHAl이 기존의 깊은 토픽 모델 및 변분 자동 인코더에 비해 외부 샘플 예측과 perplexity를 개선하는가?
RQ2대규모 코퍼스에서 (학습 및 테스트) 확장성 및 속도 면에서 하이브리드 MCMC/VAE 프레임워크가 Gibbs 샘플링 및 TLASGR-MCMC와 비교해 어떻게 성능을 보이는가?
RQ3추론 네트워크에서 Weibull(또는 gamma) 사용이 포스트리어 근사와 학습 효율성에 어떤 영향을 미치는가?
RQ4WHAI의 상향-하향 정보 전달이 전통적 VAE 또는 독립적/불완전한 상향 연결 대비 실질적인 이점을 제공하는가?
RQ5DHLA(WHAI) 변형(확률적 하향 경로 유무)이 성능에 어떤 영향을 미치는가?

주요 결과

모델	크기	퍼플렉시티 (20뉴스)	퍼플렉시티 (RCV1)	퍼플렉시티 (위키)	테스트 시간 (20뉴스)	테스트 시간 (RCV1)	테스트 시간 (위키)
DLDA-Gibbs	128-64-32	571	938	966	10.46	23.38	23.69
DLDA-Gibbs	128-64	573	942	968	8.73	18.50	19.79
DLDA-Gibbs	128	584	951	981	4.69	12.57	13.31
DLDA-TLASGR	128-64-32	579	950	978	10.46	23.38	23.69
DLDA-TLASGR	128-64	581	955	979	8.73	18.50	19.79
DLDA-TLASGR	128	590	963	993	4.69	12.57	13.31
DPFA	128-64-32	637	1041	1056	20.12	34.21	35.41
AVITM	128	654	1062	1088	0.23	0.68	0.80
DLDA-GHAI-Independent	128-64-32	613	970	999	0.62	1.22	1.47
DLDA-GHAI-Independent	128-64	614	970	1000	0.41	0.94	1.01
DLDA-GHAI-Independent	128	615	972	1003	0.22	0.69	0.80
DLDA-GHAI	128-64-32	604	963	994	0.66	1.25	1.49
DLDA-GHAI	128-64	608	965	997	0.44	0.96	1.05
DLDA-GHAI	128	615	972	1003	0.22	0.69	0.80
DLDA-WHAI-Independent	128-64-32	588	964	990	0.58	1.15	1.38
DLDA-WHAI-Independent	128-64	589	965	992	0.38	0.87	0.97
DLDA-WHAI-Independent	128	592	966	996	0.20	0.66	0.78
DLDA-WAI	128-64-32	581	954	984	0.63	1.20	1.43
DLDA-WAI	128-64	583	958	986	0.42	0.91	1.02
DLDA-WAI	128	593	967	999	0.20	0.66	0.78
DLDA-WHAI	128-64-32	581	953	980	0.63	1.20	1.43
DLDA-WHAI	128-64	582	957	982	0.42	0.91	1.02
DLDA-WHAI	128	591	965	996	0.20	0.66	0.78

WHAI는 최신 DLDA 기반 방법과 비교하여 우수한 perplexity 및 테스트 시점 효율성을 달성합니다.
Weibull 기반 인코더는 감마 포스터리어를 해석적 KL과 쉽게 재매개변 가능한 샘플링으로 밀접하게 근사합니다.
하이브드 MCMC/VAE 접근은 GM 샘플링에 비해 경쟁력 있거나 우수한 성능을 보이며 대용량 말뭉치에 대한 확장 가능한 미니배치 학습을 제공합니다.
실험에서 WHAI 및 그 변형은 비-상향(top-down이 아닌) 대비를 능가하며 확률적 하향 정보 흐름의 이점을 강조합니다.
더 깊은 아키텍처를 가진 DLDA-WHAI가 얕은 구성보다 성능이 향상되어, 계층적 토픽 학습이 효과적임을 보여줍니다.
AVITM 및 DPFA와 비교했을 때, 깊은 생성 DLDA 디코더를 사용하는 모델이 더 나은 held-out perplexity를 지속적으로 달성하면서도 빠른 외부 샘플 추론을 유지합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.