Skip to main content
QUICK REVIEW

[論文レビュー] Hybrid Discriminative-Generative Training via Contrastive Learning

Hao Liu, Pieter Abbeel|arXiv (Cornell University)|Jul 17, 2020
Domain Adaptation and Few-Shot Learning参考文献 54被引用数 23
ひとこと要約

本稿では、エネルギーに基づくモデリングを通じて、識別的(分類)および生成的(データ再構成)な目的を同時に最適化することにより、教師あり学習と対照的学習を統合する、新しいフレームワークである対照的学習を用いたハイブリッド識別的・生成的学習(HDGE)を提案する。モンテカルロサンプルの代わりに対照的学習を用いて条件付き尤度 $p(x|y)$ を近似することで、HDGEはCIFAR-10およびCIFAR-100で最先端の精度を達成するとともに、ロバストネス、分布外検出、キャリブレーションの向上を実現した。

ABSTRACT

Contrastive learning and supervised learning have both seen significant progress and success. However, thus far they have largely been treated as two separate objectives, brought together only by having a shared neural network. In this paper we show that through the perspective of hybrid discriminative-generative training of energy-based models we can make a direct connection between contrastive learning and supervised learning. Beyond presenting this unified view, we show our specific choice of approximation of the energy-based loss outperforms the existing practice in terms of classification accuracy of WideResNet on CIFAR-10 and CIFAR-100. It also leads to improved performance on robustness, out-of-distribution detection, and calibration.

研究の動機と目的

  • 対照的学習と教師あり学習の間のギャップを、ハイブリッド識別的・生成的学習フレームワークの下で統合することで埋める。
  • 標準的なクロスエントロピー学習を超えて、深層ニューラルネットワークにおける分類精度、ロバストネス、一般化性能の向上を図る。
  • 高価なモンテカルロサンプルを回避する、従来のエネルギーに基づくモデル学習の代替として、スケーラブルで効率的な手法を開発する。
  • 対照的学習による $p(x|y)$ の近似が、識別的および生成的性能の両方を向上させることを示す。
  • $p(y|x)$ と $p(x|y)$ の共同最適化が、標準的な教師あり学習を上回るモデルキャリブレーションおよび分布外検出性能をもたらすかを示す。

提案手法

  • 本手法は、標準的なクロスエントロピー $\log q_\theta(y|x)$ と $\log q_\theta(x|y)$ を組み合わせたハイブリッド損失を定式化する。後者は対照的学習を用いて近似される。
  • 対照的学習を活用し、同じ画像の増幅画像同士(正例)の距離を最小化し、異なる画像同士(負例)の距離を最大化することで、$p(x|y)$ を効果的に近似する。
  • 識別的および生成的コンポonentの両方のための共有バックボーンネットワークを用いることで、エンドツーエンドの学習を可能にする。
  • 従来のEBM研究で用いられる計算コストの高いSGLDや対照的発散と比較して、本手法は対照的目的関数を導入することで、学習の効率性を向上させる。
  • フレームワークはWideResNet-28-10で学習され、分類、分布外検出、 adversarial なロバストネス、キャリブレーションの評価が行われる。
  • 本手法はエネルギーに基づくモデルに根ざしており、同時尤度 $\log p_\theta(x,y)$ が $\log p_\theta(y|x) + \log p_\theta(x|y)$ に分解され、後者は対照的学習により最適化される。

実験結果

リサーチクエスチョン

  • RQ1対照的学習を、ハイブリッド識別的・生成的フレームワークを通じて、教師あり学習と直接接続できるか?
  • RQ2エネルギーに基づくモデルの分類学習において、$p(x|y)$ をモンテカルロサンプルの代わりに対照的学習で近似することで、性能が向上するか?
  • RQ3識別的および生成的目的の共同最適化が、標準的な教師あり学習を上回る一般化性能、ロバストネス、キャリブレーションを実現できるか?
  • RQ4複数のベンチマークにおいて、HDGEは単独の教師あり学習、対照的学習、ハイブリッドモデルと比較して、性能に優れているか?
  • RQ5高次元データにおける従来のEBM学習と比較して、本手法はスケーラブルで効率的か?

主な発見

  • HDGEはCIFAR-10およびCIFAR-100で、標準的な教師あり学習および対照的学習のベースラインを上回る最先端の分類精度を達成した。
  • CIFAR-10では、WideResNet-28-10でテスト精度96.7%を達成し、以前のSOTAを上回った。
  • CIFAR-100では、テスト精度84.3%を達成し、従来の手法と比べて顕著な向上を示した。
  • HDGEは敵対的ロバストネスを向上させ、FGSM攻撃下で標準的なクロスエントロピー学習に比べて、ロバスト精度が12.5%相対的に向上した。
  • 分布外検出性能も優れており、ベースラインモデルに比べてAUROCが15.2%向上した。
  • HDGEはモデルキャリブレーションの向上も示し、標準的な教師あり学習に比べてECEを40%低減した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。