QUICK REVIEW

[논문 리뷰] Denoising Criterion for Variational Auto-Encoding Framework

Daniel Im Jiwoong Im, Sungjin Ahn|arXiv (Cornell University)|2015. 11. 19.

Generative Adversarial Networks and Image Synthesis인용 수 71

한 줄 요약

이 논문은 입력층과 잠재층에 노이즈를 주입함으로써 변분 오토인코더를 향상시키는 디노이징 변분 오토인코더(DVAE)를 제안한다. 새로운 디노이징 변분 하한을 사용하여 훈련을 효율적으로 수행할 수 있도록 하며, MNIST 및 프리 페이스 데이터셋에서 표준 VAE와 IWAE보다 유의미하게 높은 로그우도 성능을 달성한다. 이는 더 견고하고도 민첩한 사후 근사 분포를 학습함으로써 가능해진다.

ABSTRACT

Denoising autoencoders (DAE) are trained to reconstruct their clean inputs with noise injected at the input level, while variational autoencoders (VAE) are trained with noise injected in their stochastic hidden layer, with a regularizer that encourages this noise injection. In this paper, we show that injecting noise both in input and in the stochastic hidden layer can be advantageous and we propose a modified variational lower bound as an improved objective function in this setup. When input is corrupted, then the standard VAE lower bound involves marginalizing the encoder conditional distribution over the input noise, which makes the training criterion intractable. Instead, we propose a modified training criterion which corresponds to a tractable bound when input is corrupted. Experimentally, we find that the proposed denoising variational autoencoder (DVAE) yields better average log-likelihood than the VAE and the importance weighted autoencoder on the MNIST and Frey Face datasets.

연구 동기 및 목표

변분 추론 프레임워크에 디노이징 기준을 통합하여 변분 오토인코더의 표현 능력과 견고성을 향상시키는 것.
입력 노이즈가 존재할 경우 표준 VAE 훈련의 비가역성 문제를 해결하기 위해 새로운 계산 가능한 목적 함수를 유도하는 것.
인식 네트워크에서 입력 노이즈를 통합함으로써 더 민첩한 사후 근사 분포(예: 가우시안 혼합 모델)를 가능하게 하는 것.
디노이징 기준이 다양한 모델(예: VAE 및 중요도 가중 오토인코더(IWAE))에서 성능 향상에 기여하는지 경험적으로 검증하는 것.
다양한 손상 분포(예: 전역적 또는 픽셀 수준의 노이즈 비율)가 모델 성능에 미치는 영향을 탐색하는 것.

제안 방법

입력이 노이즈에 의해 손상되어져도 계산이 가능한 목적 함수인 디노이징 변분 하한(DVVB)을 제안한다.
입력 노이즈를 통합하여 사후 분포를 더 유연하게 학습할 수 있도록 인식 네트워크를 설계한다.
입력 수준의 노이즈를 모델링하기 위해 손상 분포(예: 베르누이 또는 가우시안 노이즈)를 사용하며, 노이즈 비율은 전역적 또는 픽셀별로 설정할 수 있다.
DVVB를 표준 모델(VAE 및 IWAE)에 적용하여 입력층과 잠재층 양쪽에 노이즈를 주입한 엔드 투 엔드 훈련을 가능하게 한다.
재파라미터화 기법과 확률적 역전파를 사용하여 새로운 목적 함수를 효율적으로 최적화한다.
고정된 손상 분포와 학습 가능한 손상 분포를 고려하였으며, 후자는 향후 연구 과제로 남겨둔다.

실험 결과

연구 질문

RQ1입력층과 잠재층 양쪽에 노이즈를 주입하는 것이 변분 오토인코더의 성능 향상에 기여하는가?
RQ2입력이 손상되었을 경우에도 계산이 가능한 변분 하한을 도출할 수 있는가? 이는 입력 노이즈를 통합할 때 발생하는 비가역성 문제를 해결할 수 있는가?
RQ3제안된 디노이징 기준은 표준 VAE 및 IWAE보다 더 낮은 하한을 제공하고 일반화 성능을 향상시키는가?
RQ4손상 분포의 선택(전역적 vs. 픽셀 수준)이 모델 성능에 어떤 영향을 미치는가?
RQ5디노이징 프레임워크는 IWAE나 순환 추론 네트워크와 같은 모델로 효과적으로 확장될 수 있는가?

주요 결과

표준 피드포워드 인식 네트워크를 사용한 디노이징 변분 오토인코더(DVAE)는 MNIST에서 음의 로그우도 94.32 ± 0.12를 기록하여 표준 VAE 및 순환 구조가 없는 DVAE보다 뛰어난 성능을 보였다.
감지기 순환 유닛(GRU)을 인식 네트워크로 사용한 DIWAE(Denoising IWAE)는 노이즈 수준 10%에서 음의 로그우도 92.84 ± 0.07을 기록하여 다른 모델보다 뚜렷이 뛰어난 성능을 보였다.
GRU 기반 DVAE는 노이즈 수준 5%에서 94.30 ± 0.09를 기록하여, 표준 VAE가 실패하는 순환 아키텍처에서 디노이징이 과적합을 완화함을 보여주었다.
확률적 입력(p(x') = x)에서 샘플링을 통한 데이터 증강은 VAE에 대해 93.88 ± 0.08, IWAE에 대해 92.51 ± 0.07을 기록하여 DVAE를 능가했지만 DIWAE에 미치지 못했다. 이는 디노이징이 단순한 증강보다 더 효과적임을 시사한다.
평균 이미지 기반의 픽셀 수준 손상 비율을 사용한 결과, 전역 손상 비율에 비해 뚜렷한 성능 향상이 없었으며, 이는 더 정교한 손상 학습 기법이 필요할 수 있음을 시사한다.
제안된 디노이징 변분 하한은 노이즈가 있는 입력에서 표준 VAE 하한보다 더 낮게, 더 견고한 사후 근사와 향상된 일반화 성능을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.