QUICK REVIEW

[論文レビュー] Computational Baby Learning

Xiaodan Liang, Si Liu|arXiv (Cornell University)|Nov 11, 2014

Advanced Image and Video Retrieval Techniques参考文献 36被引用数 25

ひとこと要約

本論文は、事前学習されたCNNからの事前知識、少数の正例を用いたエクemplar学習、および未ラベル動画内の多様なインスタンスをトラッキングすることで段階的な改善を図る、わずかなラベル付きデータで物体検出を実現する計算的ベビー学習フレームワークを提案する。本手法は、カテゴリごとに2つのラベル付き例と約20,000枚の未ラベル付き動画を用いてPASCAL VOC 07/10/12で最先端の性能を達成し、完全にラベル付きのベースラインを上回った。

ABSTRACT

Intuitive observations show that a baby may inherently possess the capability of recognizing a new visual concept (e.g., chair, dog) by learning from only very few positive instances taught by parent(s) or others, and this recognition capability can be gradually further improved by exploring and/or interacting with the real instances in the physical world. Inspired by these observations, we propose a computational model for slightly-supervised object detection, based on prior knowledge modelling, exemplar learning and learning with video contexts. The prior knowledge is modeled with a pre-trained Convolutional Neural Network (CNN). When very few instances of a new concept are given, an initial concept detector is built by exemplar learning over the deep features from the pre-trained CNN. Simulating the baby's interaction with physical world, the well-designed tracking solution is then used to discover more diverse instances from the massive online unlabeled videos. Once a positive instance is detected/identified with high score in each video, more variable instances possibly from different view-angles and/or different distances are tracked and accumulated. Then the concept detector can be fine-tuned based on these new instances. This process can be repeated again and again till we obtain a very mature concept detector. Extensive experiments on Pascal VOC-07/10/12 object detection datasets well demonstrate the effectiveness of our framework. It can beat the state-of-the-art full-training based performances by learning from very few samples for each object category, along with about 20,000 unlabeled videos.

研究の動機と目的

最小限の人為的アノテーションデータで物体検出が可能な、乳児の学習を模倣した計算モデルの開発。
物体検出におけるディープラーニングの高コストなアノテーション問題を、大量の未ラベル付き動画データを活用することで解決すること。
多様で現実世界の動画インスタンスから段階的な学習を繰り返すことで、検出性能を着実に向上させること。
動画ベースのインスタンスマイニングとモデルのファインチューニングを通じて、初期に2つの正例しか与えられていない状況でも成熟した概念検出器を構築できることを示すこと。

提案手法

ImageNetで事前学習されたCNNを用いて事前知識をモデル化し、以前に学習済みの物体カテゴリに対してドメイン適応のファインチューニングを実施。
エクステンプレ学習により初期の概念検出器を構築し、中間のCNN層からの深層特徴を用いて、各正例インスタンスごとに個別に線形分類器を訓練。
未ラベル付き動画内で高信頼度で正例インスタンスを検出しそれらを種まきとして、視点や距離の異なる多様なインスタンスを領域ベースの動画トラッキングで蓄積。
新たにトラッキングされたインスタンスを用いて概念検出器を段階的に改善し、より多くの正例データが蓄積されるにつれて事前学習されたCNNをさらにファインチューニング。
オンラインの動画ストリームから継続的に新しいインスタンスをマイニング・統合することで、検出器の継続的改善を可能にする。
トラッキング中に外見の一貫性と空間的対応関係を維持するため、動画の文脈を統合し、検出のロバスト性を向上。

実験結果

リサーチクエスチョン

RQ1カテゴリごとに2つのラベル付き正例しか与えられていない状況で、高精度な物体検出器を学習できるか？
RQ2動画ベースのトラッキングは、概念の微調整に適した多様で変動のあるインスタンスを効果的に発見できるか？
RQ3未ラベル付き動画データの統合が、最小限の監視下での検出性能向上に顕著に寄与するか？
RQ4トラッキングされたインスタンスを用いた段階的改善は、完全にラベル付きの学習ベースラインを上回る程度の効果を示せるか？
RQ5マイニングされたデータで事前学習されたCNNをファインチューニングすることで、検出器の性能がさらに向上するか？

主な発見

提案フレームワークは、カテゴリごとに2つの正例と約20,000枚の未ラベル付き動画を用いてPASCAL VOC 2007で68.9%のmAPを達成し、完全にラベル付きのR-CNNベースラインを上回った。
2つの初期シードと動画ベースのマイニングを用いた場合、VOC関連のクラスを除いて再訓練したCNNを用いてPASCAL VOC 2007で65.3%のmAPを達成し、完全に訓練されたR-CNN_NIN_BB（65.4%）と同等の性能を示した。
全VOC 2007画像で事前に訓練されたR-CNNモデルに適用した場合、mAPが3.5ポイント向上し、PASCAL VOC 2007で62.0%に改善された。
VOC 2012では、Network-in-Networkアーキテクチャを用いて68.9%のmAPを達成し、完全にラベル付きのR-CNN_NIN_BB（65.4% mAP）を上回った。
シード選択に対してロバストであることが示され、飛行機クラスについて10回のランダムシード試行の平均mAPは68.5%であり、デフォルトのシード選択時（68.9%）とわずかに低い水準にとどまった。
可視化結果から、さまざまな視点、隠蔽状態、外見の変化に対しても多様なインスタンスが正常にトラッキングされていることが確認され、動画の文脈がデータの多様性をマイニングする上で有効であることが裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。