QUICK REVIEW

[論文レビュー] Memory Matching Networks for One-Shot Image Recognition

Qi Cai, Yingwei Pan|arXiv (Cornell University)|Apr 23, 2018

Advanced Neural Network Applications参考文献 32被引用数 36

ひとこと要約

本稿では、1ショット画像認識のための新しい深層学習アーキテクチャであるMemory Matching Networks (MM-Net) を提案する。このアーキテクチャは、CNNにメモリモジュールと文脈学習者を追加し、リアルタイムでネットワークパラメータを動的に予測する。1つまたは数個の例ごとに1クラスのサポートセットで訓練し、bi-LSTMを用いて適応的CNN重みを生成することで、Omniglotで99.28%、mini-ImageNetで53.37%の精度を達成し、最先端性能を実現した。

ABSTRACT

In this paper, we introduce the new ideas of augmenting Convolutional Neural Networks (CNNs) with Memory and learning to learn the network parameters for the unlabelled images on the fly in one-shot learning. Specifically, we present Memory Matching Networks (MM-Net) --- a novel deep architecture that explores the training procedure, following the philosophy that training and test conditions must match. Technically, MM-Net writes the features of a set of labelled images (support set) into memory and reads from memory when performing inference to holistically leverage the knowledge in the set. Meanwhile, a Contextual Learner employs the memory slots in a sequential manner to predict the parameters of CNNs for unlabelled images. The whole architecture is trained by once showing only a few examples per class and switching the learning from minibatch to minibatch, which is tailored for one-shot learning when presented with a few examples of new categories at test time. Unlike the conventional one-shot learning approaches, our MM-Net could output one unified model irrespective of the number of shots and categories. Extensive experiments are conducted on two public datasets, i.e., Omniglot and \emph{mini}ImageNet, and superior results are reported when compared to state-of-the-art approaches. More remarkably, our MM-Net improves one-shot accuracy on Omniglot from 98.95% to 99.28% and from 49.21% to 53.37% on \emph{mini}ImageNet.

研究の動機と目的

1ショット学習における訓練と推論の不一致を解消する。具体的には、標準的なミニバッチ訓練では、少数ショットのテスト設定と一致しない。
新しいカテゴリに対して1つまたは数個の例しか利用できない状況で、ファインチューニングやトランスファーラーニングの限界を克服する。
再訓練を必要とせず、さまざまなショット数やクラス数に一般化可能な統一されたモデルを開発する。
再帰的メモリベースの学習者を用いて、CNNの動的かつ文脈に適応したパラメータ予測を実現する。
すべてのサポートセットカテゴリにわたる知識を包括的に活用することで、特徴表現と類似度マッチングを向上させる。

提案手法

サポートセットのラベル付き画像から特徴を書き込み・取得することができるメモリモジュールをCNNに追加する。このモジュールには、書き込みおよび読み取りコントローラーが備わる。
文脈学習者として双方向LSTM（bi-LSTM）を用い、メモリスロットを逐次処理し、ラベルなし画像の畳み込み層パラメータを予測する。
各バッチのサポートセットを条件としたラベルなし画像の分類誤差を最小化することで、ネットワーク全体をエンドツーエンドで訓練する。
さまざまなテストシナリオに一般化するため、混合ショットおよびウェイ設定（例：2–5ウェイ、1–5ショット）を用いたバッチを構築する。
ラベルなし画像の埋め込みとサポートセットの埋め込みのドット積により類似度スコアを計算し、予測ラベルを割り当てる。
文脈学習者を用いてオンザフライでネットワークパラメータを計算することで、ファインチューニングの必要性を排除し、再トレーニングなしに新しいカテゴリでの推論を可能にする。

実験結果

リサーチクエスチョン

RQ1ファインチューニングを必要とせず、さまざまなショット数やクラス数に一般化可能な統一されたディープネットワークを訓練できるか？
RQ2訓練手順を推論条件に合わせて調整することで、少数ショット設定における一般化性能を向上させられるか？
RQ3逐次的な文脈学習者を備えたメモリ拡張アーキテクチャは、特徴表現と類似度マッチングを向上させられるか？
RQ4さまざまなショット数とウェイ数を組み合わせた混合訓練戦略が、モデルの一般化性能および性能に与える影響は何か？
RQ5メモリモジュールとパラメータ予測メカニズムは、従来手法と比較して、より判別力のある特徴学習をどのように向上させるか？

主な発見

MM-NetはOmniglotデータセットで99.28%のトップ1精度を達成し、従来の最先端手法（98.95%）を顕著に上回った。
mini-ImageNetデータセットでは、5ウェイ1ショット評価下で53.37%の少額ショット精度を達成し、従来の最先端手法（49.21%）を上回った。
混合訓練戦略（Mixed C-way k-shot）は、すべての均一な訓練戦略（固定ショットまたは固定ウェイ）を上回り、多様なテストシナリオにおける優れた一般化性能を示した。
文脈学習者のbi-LSTMの隠れ状態サイズは、128〜1024ユニットの範囲で性能にほとんど影響せず、差が0.013未満にとどまるため、ハイパーパrameterの選択に対して頑健であることが示された。
t-SNE可視化では、MM-NetがMatching Networks（MN）と比較して、より意味的に分離された画像表現を学習していることが確認された。
類似度行列の可視化では、MM-NetがMNと比較して、クラス内類似度が高く、クラス間類似度が低く、より判別力のある特徴学習を実現していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。