Skip to main content
QUICK REVIEW

[论文解读] Representation Learning with Contrastive Predictive Coding

Aäron van den Oord, Yazhe Li|arXiv (Cornell University)|Jul 10, 2018
Multimodal Machine Learning Applications被引用 4,505
一句话总结

CPC 通过对比学习损失预测未来潜在编码来学习无监督表示,在语音、图像、文本和强化学习等多个领域在没有标签的情况下取得了强劲的结果。

ABSTRACT

While supervised learning has enabled great progress in many applications, unsupervised learning has not seen such widespread adoption, and remains an important and challenging endeavor for artificial intelligence. In this work, we propose a universal unsupervised learning approach to extract useful representations from high-dimensional data, which we call Contrastive Predictive Coding. The key insight of our model is to learn such representations by predicting the future in latent space by using powerful autoregressive models. We use a probabilistic contrastive loss which induces the latent space to capture information that is maximally useful to predict future samples. It also makes the model tractable by using negative sampling. While most prior work has focused on evaluating representations for a particular modality, we demonstrate that our approach is able to learn useful representations achieving strong performance on four distinct domains: speech, images, text and reinforcement learning in 3D environments.

研究动机与目标

  • 将无监督表示学习作为实现数据高效、鲁棒特征的途径。
  • 提出一个通用的 CPC 框架,将数据压缩为潜在表示并在潜在空间中预测未来步骤。
  • 证明一种对比、最大化互信息的目标在多种模态下能产生有用的特征。

提出的方法

  • 使用非线性编码器 g_enc 将输入序列编码为潜在表示 z_t。
  • 用自回归模型 g_ar 汇总过去的潜在表示以生成上下文 c_t。
  • 建模一个密度比 f_k(x_{t+k}, c_t),与 p(x_{t+k}|c_t)/p(x_{t+k}) 成正比,以保持互信息。
  • 使用 InfoNCE 损失进行训练:L_N = -E log [ f_k(x_{t+k}, c_t) / sum_{x_j in X} f_k(x_j, c_t) ]。
  • 使用负采样以实现可训练性,并联合优化编码器和自回归模型。
  • 可以使用任意的编码器和自回归架构;下游任务可使用 z_t 或 c_t(如有需要可进行池化)。

实验结果

研究问题

  • RQ1一个单一的无监督 CPC 框架是否能够在语音、图像、文本、强化学习等多种数据模态上学习可迁移的表示?
  • RQ2通过 InfoNCE 损失最大化互信息是否能够产生捕捉跨多个时间步的高层次、可预测结构的表示?
  • RQ3预测的未来步数以及负样本的选择如何影响表示质量?
  • RQ4CPC 表示在下游任务如强化学习中是否能加速或改进学习?

主要发现

  • CPC 在 LibriSpeech 的语音和说话人分类任务上实现了强线性可分性,优于 MFCC 特征,接近监督学习性能。
  • 在视觉方面,使用 ResNet-v2-101 编码器的 CPC 在 ImageNet 的无监督评估中达到 Top-1 48.7%,Top-5 73.6%,超过若干先前的无监督方法。
  • 在自然语言处理中,CPC 在情感分析和分类基准上与 skip-thought 向量相当,使用 BookCorpus 的迁移学习。
  • 在强化学习中,将 CPC 作为辅助损失可使 DeepMind Lab 的 5 个任务中有 4 个任务的性能提升,1 个任务无明显效果,表明收益与任务相关。
  • 消融研究表明预测多个未来步骤能改善表示,负采样策略影响下游性能(如在音频实验中混合说话人与同一说话人)的表现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。