Skip to main content
QUICK REVIEW

[論文レビュー] Data-Efficient Image Recognition with Contrastive Predictive Coding

Olivier J. Hénaff, Aravind Srinivas|arXiv (Cornell University)|May 22, 2019
Advanced Image and Video Retrieval Techniques参考文献 99被引用数 936
ひとこと要約

本論文は Contrastive Predictive Coding (CPC) を再検討・改良し、データ効率の高い認識を可能にする非監視画像表現を学習する手法を提案する。これにより線形 ImageNet の性能で最先端を達成し、物体検出への強い転移を実現するとともに、少ないラベルを用いた場合の性能がピクセルベースの学習より顕著に優れている。

ABSTRACT

Human observers can learn to recognize new categories of images from a handful of examples, yet doing so with artificial ones remains an open challenge. We hypothesize that data-efficient recognition is enabled by representations which make the variability in natural signals more predictable. We therefore revisit and improve Contrastive Predictive Coding, an unsupervised objective for learning such representations. This new implementation produces features which support state-of-the-art linear classification accuracy on the ImageNet dataset. When used as input for non-linear classification with deep neural networks, this representation allows us to use 2-5x less labels than classifiers trained directly on image pixels. Finally, this unsupervised representation substantially improves transfer learning to object detection on the PASCAL VOC dataset, surpassing fully supervised pre-trained ImageNet classifiers.

研究の動機と目的

  • 自然信号のばらつきをより予測可能にする表現を学習することによるデータ効率の高い認識を動機づける。
  • CPCアーキテクチャとトレーニングを改善して、下流の線形分離性とデータ効率を最大化する。
  • CPCで事前学習した特徴が、ピクセルベースの教師ありモデルと比べてはるかに少ないラベルで競争力のあるまたは優れた性能を実現できることを示す。
  • CPC表現のPASCAL VOC 2007における物体検出への転移性を示し、教師付き事前学習を上回る。
  • CPCの性能を高めるアーキテクチャとデータ拡張の選択に関する実践的なガイダンスを提供する。

提案手法

  • 強化されたエンコーダ(ResNet-161)と拡張されたパッチベースの予測タスクでCPCを再定式化し、監視信号を増強する。
  • トレーニング効率と性能を向上させるためにバッチ正規化の代わりにレイヤー正規化を使用する。
  • 上・下・左・右の複数の方向に渡って予測を行い、予測タスクと精度を増やす。
  • カラーを落とす 등의色落としやランダムな幾何学的・カラー変換を含むパッチベースの拡張を適用し、低レベルの手掛かりへの依存を抑制する。
  • 線形評価のためにCPC特徴量上で線形分類器を訓練し、必要に応じてエンコーダと分類器を共同で微調整して効率的な分類を実現する。
  • PASCAL VOC 2007の物体検出に対してFaster-RCNNへCPC表現を転送し、一般化を評価する。

実験結果

リサーチクエスチョン

  • RQ1CPCをスケールおよび改良してデータ効率の良い画像認識を改善する表現を得られるか。
  • RQ2アーキテクチャの変更、正規化の選択、複数方向予測はCPCの性能を向上させるか。
  • RQ3CPC表現はピクセルベースの教師ありモデルと比べて限られたラベルデータで競争力のあるまたは優れた性能を実現できるか。
  • RQ4CPC事前学習特徴は別のデータセット(PASCAL VOC 2007)での物体検出に効果的に転移するか。

主な発見

  • CPC v2はImageNet分類の線形評価でTop-1精度71.5%を達成し、CPC v1の48.7%から向上。
  • ImageNetラベルの1%で、CPC特徴上の分類器はTop-5で78.3%を達成(ラベル1%のピクセルベース教師あり学習はTop-5 44.1%)。
  • 全ラベルで完全訓練した場合、CPCベースのモデルはTop-1 83.4%およびTop-5 96.5%に到達し、教師付きのResNet-200ベースラインを上回る。
  • CPC表現は強い転移を可能とし、PASCAL VOC 2007物体検出で76.6%のmAPを実現、教師付き事前学習(74.7%のmAP)を上回る。
  • CPCの改善は、より大きな容量(ResNet-161)、より大きな受容野、レイヤー正規化、多方向予測、そして広範なパッチベース拡張に起因する。
  • CPCベースの手法は、データ効率の良い認識においてラベル伝搬や他の自己教師あり手法と競合または優越している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。