QUICK REVIEW

[論文レビュー] Max-Margin Deep Generative Models

Chongxuan Li|arXiv (Cornell University)|Apr 26, 2015

Generative Adversarial Networks and Image Synthesis参考文献 38被引用数 23

ひとこと要約

本論文は、最大マージン学習を深層生成モデルに統合することで、判別性能を向上させつつ生成能力を維持する、最大マージン深層生成モデル（mmDGMs）を提案する。変分推論問題を最大マージン事後分布制約で正則化し、畳み込みニューラルネットワーク（CNN）を用いた識別・生成ネットワークと、二重に確率的な勾配降下法を用いることで、mnist および svhn で最先端の分類精度を達成し、標準的な DGM よりも優れており、完全に判別的なネットワークと同等の性能を示す。

ABSTRACT

Deep generative models (DGMs) are effective on learning multilayered representations of complex data and performing inference of input data by exploring the generative ability. However, little work has been done on examining or empowering the discriminative ability of DGMs on making accurate predictions. This paper presents max-margin deep generative models (mmDGMs), which explore the strongly discriminative principle of max-margin learning to improve the discriminative power of DGMs, while retaining the generative capability. We develop an efficient doubly stochastic subgradient algorithm for the piecewise linear objective. Empirical results on MNIST and SVHN datasets demonstrate that (1) max-margin learning can significantly improve the prediction performance of DGMs and meanwhile retain the generative ability; and (2) mmDGMs are competitive to the state-of-the-art fully discriminative networks by employing deep convolutional neural networks (CNNs) as both recognition and generative models.

研究の動機と目的

深層生成モデル（DGM）は強力な生成能力を有するが、分類タスクにおける判別性能が限られているという問題に取り組む。
最大マージン原理を DGM に統合し、生成能力を損なうことなく予測性能を向上させる。
判別的および生成的コンポーネントの共同学習に適した効率的な最適化手法を開発する。
mnist および svhn データセットを用いて、画像分類、生成、欠損データ補完のタスクでモデルを評価する。

提案手法

mmDGM を最大マージン事後分布制約で正則化した変分推論問題として定式化し、潜在表現をより良い予測に向かわせる。
最大マージン制約を、潜在変数の変分事後分布に関する線形関数として定義する。
非自明な潜在構造を扱えるように、Pagesos アルゴリズムを一般化した二重に確率的な勾配降下法を開発する。
階層的特徴を捉え、生成品質を向上させるために、識別および生成モデルとして深層畳み込みニューラルネットワーク（CNN）を採用する。
認識モデルを用いた確率的変分推論により、事後分布を効率的に近似する。
欠損データ下でも分類と生成の両方の性能を向上させるために、認識モデルにヒンジ損失正則化を適用する。

実験結果

リサーチクエスチョン

RQ1最大マージン学習は、生成能力を損なうことなく、深層生成モデルの判別性能を顕著に向上させることができるか？
RQ2判別的および生成的コンポーネントの共同学習は、表現品質および予測精度にどのように影響するか？
RQ3mmDGM における CNN を用いた認識および生成モデルは、完全に判別的なネットワークと比較して競争力のある分類性能を達成できるか？
RQ4特に構造的またはランダムな損傷下で、mmDGM は画像の欠損値補完にどの程度効果的か？
RQ5認識モデルにおけるヒンジ損失正則化は、意味的でクラス関連の画像パターンを生成する能力を向上させるか？

主な発見

mmDGM は mnist および svhn で最先端の分類誤差率を達成し、svhn では 1.92% の誤差率を示し、完全に判別的なネットワークと同等の性能を示す。
標準的な DGM よりも顕著に予測性能が向上し、ラベルが完全に与えられた状況下で svhn で相対誤差率を 20% 減少させる。
mmDGM は強力な生成能力を維持しており、高ノイズや欠損データ下でも意味のある画像サンプルを生成できる。
欠損データ補完において、ベースラインモデルを上回り、特に大きな長方形のパッチが欠損している状況で顕著に優れる。mnist では 12×12 の欠損パッチにおいて、平均二乗誤差（MSE）が 10.9% 低減する。
可視化により、ヒンジ損失正則化がよりクラス関連の構造を生成するのを助け、標準的な DGM は複雑な条件下で数字のパターンを学習できないことが示された。
CNN を用いた mmDGM は高レベルのパターン学習に優れており、mlp を用いたバージョンはよりピクセル単位の再構成に注力する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。