QUICK REVIEW

[논문 리뷰] Deconstructing Denoising Diffusion Models for Self-Supervised Learning

Xinlei Chen, Zhuang Liu|arXiv (Cornell University)|2024. 01. 25.

Image and Signal Denoising Methods인용 수 17

한 줄 요약

이 논문은 현대 노이즈 제거 확산 모델(DDMs)을 해체하여 잠재 공간 노이즈 제거 자동인코더(l-DAE)를 형성하고, 저차원 잠재 공간과 노이즈 제거가 자기 감독 표현에 핵심이며, 생성 중심의 DDM보다 매우 간단한 아키텍처에서도 성능이 확보됨을 보여준다.

ABSTRACT

In this study, we examine the representation learning abilities of Denoising Diffusion Models (DDM) that were originally purposed for image generation. Our philosophy is to deconstruct a DDM, gradually transforming it into a classical Denoising Autoencoder (DAE). This deconstructive procedure allows us to explore how various components of modern DDMs influence self-supervised representation learning. We observe that only a very few modern components are critical for learning good representations, while many others are nonessential. Our study ultimately arrives at an approach that is highly simplified and to a large extent resembles a classical DAE. We hope our study will rekindle interest in a family of classical methods within the realm of modern self-supervised learning.

연구 동기 및 목표

노이즈 제거 확산 모델(DDMs)이 생성이 아니라 자기감독 학습을 위한 표현을 어떻게 학습하는지 동기 부여하고 이해한다.
현대 DDM의 구성 요소를 체계적으로 제거(축약)하여 어떤 부분이 좋은 표현 학습에 중요한지 식별한다.
고전적 Denoising Autoencoder(DAE)와 가까운 단순화된 아키텍처를 개발하고 its 표현 품질을 평가한다.
표현 학습에서 잠재 공간 차원 수와 노이즈 제거 대 확산(process) 간의 역할에 대한 통찰을 밝힌다.

제안 방법

이미지 생성을 위해 학습된 diffusion-transformer(DiT) 베이스라인에서 시작하고 선형 프로빙을 통해 표현 품질을 평가한다.
클래스 조건화를 제거하고 토크나이저 손실을 약화시키거나 제거하여 표현 학습에 미치는 영향을 평가한다.
잠재 공간 차원에 대한 효과를 연구하기 위해 네 가지 토크나이저(합성곱 VAE, 패치 단위 VAE, 패치 단위 AE, 패치 단위 PCA)를 탐구한다.
노이즈 예측 대상, 입력 스케일링, 잠재 공간 대 이미지 공간 연산 등 확산 특유의 설계를 점진적으로 고전적 DAE 설정에 가까워지도록 되돌려 본다.
저차원 잠재 공간(패치 단위 PCA를 통해)에서 노이즈를 추가하고 노이즈를 제거하도록 자동인코더를 학습시켜 잠재 공간 잠재 노이즈 제거 오토인코더(l-DAE)를 도입하며, 다중 수준 노이즈를 증강의 한 형태로 사용한다.

Figure 1 : The latent Denoising Autoencoder ( l -DAE ) architecture we have ultimately reached, after a thorough exploration of deconstructing Denoising Diffusion Models (DDM) [ 23 ] , with the goal of approaching the classical Denoising Autoencoder (DAE) [ 39 ] as much as possible. Here, the clean

실험 결과

연구 질문

RQ1비생성 작업으로 방향을 바꾼 경우 확산 모델이 자기 감독 학습을 위한 강력한 표현을 학습할 수 있는가?
RQ2현대 DDM의 어떤 구성 요소가 표현 학습에 필수적이며 어떤 것이 비필수인가?
RQ3노이즈 제거 프레임워크에서 저차원 잠재 공간이 효과적인 자기 감독 표현 학습에 충분한가?
RQ4해체된 DDM이 선형 평가에서 고전적 DAE 및 MAE 유사 방법의 성능에 얼마나 근접할 수 있는가?
RQ5다양한 토크나이저와 노이즈 스케줄이 표현 품질에 미치는 영향은 무엇인가?

주요 결과

Method	ViT-B (86M)	ViT-L (304M)
MoCo v3	76.7	77.6
MAE	68.0	75.8
l-DAE	66.6	75.0

DDM의 표현 가능성은 확산 그 자체보다는 주로 노이즈 제거에서 비롯된다.
클래스 조건화를 제거하면 DiT 베이스라인에서 선형 프로브 정확도가 57.5%에서 62.1%로 향상되고(FID는 악화되어 생성 품질 저하를 나타냄).
지각 손실로 학습된 토크나이저는 의미적 표현을 제공했고, 지각 손실과 대립적 손실을 제거하면 VAE 유사 토크나이저로 이동하며 모든 표현 능력을 잃지 않는다.
잠재 공간에서 단순하고 다중 수준이 아닌 노이즈 스케줄이 선형 정확도를 63.4%로 향상시키며(기준 59.0%), 다중 수준 노이즈가 증강으로 작용하나 필수적이지 않다는 것을 시사한다.
저 잠재 차원(d=16-32)으로 패치 단위 토크나이저가 합성곱 VAE 토크나이저보다 우수하고, PCA 기반 토크나이저는 그래디언트 학습 없이도 사용할 수 있다.
고전적 DAE로의 이동은 노이즈가 아닌 깨끗한 데이터를 예측하는 것이 경쟁력 있는 약간 낮은 정확도(예: 62.4%)를 보이고, 잠재 공간에서 역 PCA를 사용하는 경우 이미지 공간 성능과 일치할 수 있다(63.6-63.9%).
최종 잠재 공간 DAE(l-DAE)는 PCA 기반 토크나이저와 다중 수준 잠재 노이즈를 사용하여 65.1%를 달성(패치 단위 PCA 베이스라인), 증강으로 최대 65.0%까지 증가하며 더 큰 모델로 확장될수 있고(ViT-L은 비교에서 75.0%에 도달).
MoCo v3 및 MAE 기준과 비교할 때, l-DAE는 MAE와 경쟁력이 있으며 유사한 학습 조건에서 ViT-B/-L 설정에서 MAE보다 약 1-2% 뒤처진다.

(a) a classical Denoising Autoencoders (DAE)

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.