Skip to main content
QUICK REVIEW

[論文レビュー] Learning feed-forward one-shot learners

Luca Bertinetto, João F. Henriques|arXiv (Cornell University)|Jun 16, 2016
Video Surveillance and Tracking Methods参考文献 17被引用数 241
ひとこと要約

本論文は、単一の exemplar から pupil ネットワークのパラメータを予測する第二のニューラルネットワークである learnet を提案します。これにより分類と追跡のための真のフィードフォワードのワンショット学習が可能になり、パラメータ空間を現実的に保つ因子分解された線形層と畳み込み層を用いて、Omniglot OCR およびビジュアルオブジェクト追跡のベンチマークで競争力のある結果を示します。

ABSTRACT

One-shot learning is usually tackled by using generative models or discriminative embeddings. Discriminative methods based on deep learning, which are very effective in other learning scenarios, are ill-suited for one-shot learning as they need large amounts of training data. In this paper, we propose a method to learn the parameters of a deep model in one shot. We construct the learner as a second deep network, called a learnet, which predicts the parameters of a pupil network from a single exemplar. In this manner we obtain an efficient feed-forward one-shot learner, trained end-to-end by minimizing a one-shot classification objective in a learning to learn formulation. In order to make the construction feasible, we propose a number of factorizations of the parameters of the pupil network. We demonstrate encouraging results by learning characters from single exemplars in Omniglot, and by tracking visual objects from a single initial exemplar in the Visual Object Tracking benchmark.

研究の動機と目的

  • ワンショット識別学習の反復最適化なしのボトルネックを動機づけて解決する。
  • single exemplar から pupil network の全パラメータを予測する meta-learning ネットワーク(learnet)を提案する。
  • ワンショットのパラメータ予測を実現可能にするためにパラメータの因子化(対角/非共有)を開発する。
  • OCR(Omniglot)と視覚的オブジェクト追跡ベンチマークで実現可能性と競争力を示す。

提案手法

  • one-shot 学習を exemplar z を pupil network φ(·;W) のパラメータ W へ写像する learnet による動的パラメータ予測として定式化する。
  • learnet を triplets (x, z, ℓ) の one-shot objective を最小化してエンドツーエンドで訓練する。ℓ は同クラス/異なるクラスを示す。
  • 重み行列を M′ diag(w(z)) M に因子分解してパラメータ爆発に対処し、learnet の出力を dk(線形)または f^2 d(畳み込み)へと削減する。
  • 畳み込み層にも因子分解を拡張し y = M′ * w(z) *d M * x + b(z) の形式を用い、チャネルごとに解離を可能にする。
  • 三つのアーキテクチャを比較する:シアマゼ Baseline、シアマゼ learnet、シングルストリーム learnet、因子分解畳み込みを含む変体を含む。

実験結果

リサーチクエスチョン

  • RQ1単一の exemplar から別ネットワークの全パラメータを深いネットワークが予測でき、真のワンショット識別学習を実現できるか?
  • RQ2フィードフォワードの learnet は exemplar-SVMs のような反復的ワンショット法より実用的なスピード利点を提供するか?
  • RQ3因子分解された線形および畳み込み層はワンショット学習における動的パラメータ予測の実現可能性と性能にどう影響するか?
  • RQ4learnet ベースのワンショットモデルは OCR および追跡タスクで Siamese 埋め込みと競争力があるか?

主な発見

  • Omniglot OCR では、単一ストリーム learnet が weighted L1 distance を用いて 28.6% の誤り率を達成し、標準の Siamese ベースラインを上回った。
  • dynamic に予測された畳み込みフィルターを用いた Learnets は VOT2015 ベンチマークで追跡性能を向上させ、最近のトラッカーとしばしば優位にランク付けされつつリアルタイム (>60 FPS) で動作する。
  • 因子分解された畳み込み層は、 OCR タスクでこの設定におけるパラメータ予測の負担を軽減しつつ精度を著しく損なわない。
  • 提案された因子分解を用いれば、単一 exemplar から層全体のパラメータを予測することが可能であり、素朴なパラメータ予測の二次スケーリング問題を回避できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。