QUICK REVIEW

[論文レビュー] Deconstructing Denoising Diffusion Models for Self-Supervised Learning

Xinlei Chen, Zhuang Liu|arXiv (Cornell University)|Jan 25, 2024

Image and Signal Denoising Methods被引用数 17

ひとこと要約

この論文は現代のノイズ除去拡散モデル（DDMs）を分解して潜在空間ノイズ除去自動エンコーダ（l-DAE）を形成し、低次元の潜在空間とノイズ除去が自己教師付き表現学習の鍵であり、生成に焦点を当てたDDMよりもはるかにシンプルなアーキテクチャでも実現可能であることを示している。

ABSTRACT

In this study, we examine the representation learning abilities of Denoising Diffusion Models (DDM) that were originally purposed for image generation. Our philosophy is to deconstruct a DDM, gradually transforming it into a classical Denoising Autoencoder (DAE). This deconstructive procedure allows us to explore how various components of modern DDMs influence self-supervised representation learning. We observe that only a very few modern components are critical for learning good representations, while many others are nonessential. Our study ultimately arrives at an approach that is highly simplified and to a large extent resembles a classical DAE. We hope our study will rekindle interest in a family of classical methods within the realm of modern self-supervised learning.

研究の動機と目的

Denoising Diffusion Models (DDMs) が生成ではなく自己教師付き学習の表現をどのように学習するかを動機づけ、理解する。
現代のDDMの構成要素を系統的にアブレーションし、良い表現学習にとってどの部分が重要でどの部分が非重要かを特定する。
古典的なDenoising Autoencoder (DAE) に密接に類似した単純化されたアーキテクチャを開発し、その表現品質を評価する。
潜在空間次元とノイズ除去と拡散過程の役割が表現学習に与える影響について洞察を明らかにする。

提案手法

画像生成のために訓練された diffusion-transformer (DiT) ベースラインから始め、その表現品質を線形探査で評価する。
クラス条件付けを削除し、トークナイザーの損失をアブレートして表現学習への影響を評価する。
潜在空間の次元性を調べるため、4種類のトークナイザー（convolutional VAE, patch-wise VAE, patch-wise AE, patch-wise PCA）を探索する。
拡散特有の設計（ノイズ予測目標、入力スケーリング、潜在空間対画像空間の操作）を古典的なDAE設定へ向けて段階的に戻す。
潜在拡散ノイズを用いて低次元潜在空間にノイズを導入し、ノイズをデノイズするオートエンコーダを訓練することでl-DAEを導入し、多段階ノイズを拡張の一形態として用いる。

Figure 1 : The latent Denoising Autoencoder ( l -DAE ) architecture we have ultimately reached, after a thorough exploration of deconstructing Denoising Diffusion Models (DDM) [ 23 ] , with the goal of approaching the classical Denoising Autoencoder (DAE) [ 39 ] as much as possible. Here, the clean

実験結果

リサーチクエスチョン

RQ1拡散モデルは生成タスクに偏らせず、自己教師付き学習のための強い表現を学習できるか。
RQ2現代のDDMのどの構成要素が表現学習にとって不可欠で、どれが非不可欠か。
RQ3デノイジングフレームワークにおいて低次元の潜在空間は効果的な自己教師付き表現学習に十分か。
RQ4分解されたDDMアプローチは線形評価において古典的なDAEやMAE様式の手法の性能にどれくらい近づくか。
RQ5異なるトークナイザーとノイズスケジュールが表現品質に与える影響はどうなるか。

主な発見

Method	ViT-B (86M)	ViT-L (304M)
MoCo v3	76.7	77.6
MAE	68.0	75.8
l-DAE	66.6	75.0

DDMの表現能力の大半は拡散そのものよりもデノイズに起因する。
クラス条件付けを削除するとDiTベースラインで線形プローブの精度が57.5%から62.1%に向上する（FIDは悪化し、生成品質の低下を示す）。
知覚損失で訓練されたトークナイザーは意味的な表現を提供し、知覚損失と対にならない対向損失を取り除くとVAE風のトークナイザーへ移行しても全ての表現能力を失わない。
潜在空間の単純な非マルチレベルノイズスケジュールは線形精度を63.4%へ向上させ、マルチレベルノイズは拡張として機能するが必須ではないことを示唆する（ベースラインは59.0%）。
低潜在次元（d=16-32）を持つパッチ-wiseトークナイザーは線形 probeで畳み込みVAEトークナイザーより優れており、PCAベースのトークナイザーは勾配訓練なしで使用可能。
古典的なDAEに近づく方向へ、ノイズではなくクリーンデータを予測すると精度は競争力があるがやや低くなる（例: 62.4%の変化）、潜在空間での逆PCAを用いると画像空間の性能に匹敵（63.6-63.9%）。
最終的な潜在空間DAE（l-DAE）はPCAベースのトークナイザーと多段階潜在ノイズを組み合わせると65.1%（パッチ-wise PCAベースライン）まで達し、拡張を用いると65.0%となり、モデルが大きくなるとスケールする（ViT-Lは比較で75.0%に達する）。
MoCo v3やMAEベースラインと比較して、l-DAEはMAEと競合し、同様の訓練条件下でViT-B/-L設定でMAEより約1-2%遅れる。

(a) a classical Denoising Autoencoders (DAE)

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。