Skip to main content
QUICK REVIEW

[論文レビュー] Representation Learning with Contrastive Predictive Coding

Aäron van den Oord, Yazhe Li|arXiv (Cornell University)|Jul 10, 2018
Multimodal Machine Learning Applications被引用数 4,505
ひとこと要約

CPCは、対照的学習損失を用いて将来の潜在コードを予測することにより教師なし表現を学習し、ラベルなしで音声、画像、テキスト、強化学習において強力な結果を達成する。

ABSTRACT

While supervised learning has enabled great progress in many applications, unsupervised learning has not seen such widespread adoption, and remains an important and challenging endeavor for artificial intelligence. In this work, we propose a universal unsupervised learning approach to extract useful representations from high-dimensional data, which we call Contrastive Predictive Coding. The key insight of our model is to learn such representations by predicting the future in latent space by using powerful autoregressive models. We use a probabilistic contrastive loss which induces the latent space to capture information that is maximally useful to predict future samples. It also makes the model tractable by using negative sampling. While most prior work has focused on evaluating representations for a particular modality, we demonstrate that our approach is able to learn useful representations achieving strong performance on four distinct domains: speech, images, text and reinforcement learning in 3D environments.

研究の動機と目的

  • データ効率が高く頑健な特徴への道として、教師なし表現学習を動機づける。
  • データを潜在表現に圧縮し、潜在空間内の将来のステップを予測する普遍的なCPCフレームワークを提案する。
  • 対照的でMIを最大化する目的関数が、複数のモーダリティにわたって有用な特徴を生み出すことを示す。

提案手法

  • 入力シーケンスを、非線形エンコーダ g_enc を用いて潜在表現 z_t に符号化する。
  • 過去の潜在表現を自己回帰モデル g_ar で要約し、文脈 c_t を生成する。
  • 相互情報を保つため、密度比 f_k(x_{t+k}, c_t) を p(x_{t+k}|c_t)/p(x_{t+k}) に比例させてモデル化する。
  • InfoNCE 損失を用いて訓練する:L_N = -E log [ f_k(x_{t+k}, c_t) / sum_{x_j in X} f_k(x_j, c_t) ]。
  • 負サンプリングを用いて計算可能な訓練を可能にし、エンコーダと自己回帰モデルを共同で最適化する。
  • 任意のエンコーダおよび自己回帰アーキテクチャを使用できる。下流タスクは z_t または c_t を使用できる(必要に応じてプーリングを用いる)。

実験結果

リサーチクエスチョン

  • RQ11つの教師なしCPCフレームワークが、音声、画像、テキスト、RLといった多様なデータモーダリティ間で転送可能な表現を学習できるだろうか?
  • RQ2InfoNCE 損失を介して相互情報量を最大化することで、複数の時間ステップにわたる高レベルの予測構造を捉える表現が得られるか?
  • RQ3予測する将来ステップの数とネガティブサンプルの選択は、表現の品質にどう影響するか?
  • RQ4CPC表現は、強化学習のような下流タスクの学習を加速させたり改善したりできるか?

主な発見

  • CPCは LibriSpeech からの音声ファイルの電話識別と話者識別で強い線形分離性を達成し、MFCC特徴よりも優れ、監督ありの性能に近づいている。
  • 視覚領域では、ResNet-v2-101 エンコーダを用いた CPC が、ImageNet における自己监督評価で Top-1 精度 48.7%、Top-5 73.6% を達成し、従来のいくつかの自己 supervise 手法を上回る。
  • NLP では、CPC が BookCorpus からの転移学習を用いた感情分析・分類ベンチマークで skip-thought ベクトルと競合的な性能を示す。
  • 強化学習では、CPC を補助損失として追加すると DeepMind Lab のタスク5中4で性能向上、1つのタスクでは効果なしとなり、タスク依存の利点を示す。
  • アブレーション研究は、複数の将来ステップを予測することが表現を改善し、負サンプリング戦略が下流の性能に影響することを示す(音声実験では、混合スピーカー vs 同一スピーカーなどの例)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。