Skip to main content
QUICK REVIEW

[論文レビュー] Learning to count with deep object features

Santi Seguí, Oriol Pujol|arXiv (Cornell University)|May 29, 2015
Video Surveillance and Tracking Methods参考文献 15被引用数 23
ひとこと要約

この論文では、オブジェクトインスタンスの数を数えるように訓練された深層畳み込みニューラルネットワーク(CNN)を、弱教師ありの方法として、強力で転移可能なオブジェクト表現を学習する手法として提案している。オブジェクトの位置に関する直接的な教師信号がなくても、数え上げの信号を活用することで、ネットワークは数字や歩行者を分類・局所化する能力を学習し、数字分類や歩行者検出といった下流タスクで高い精度を達成した。

ABSTRACT

Learning to count is a learning strategy that has been recently proposed in the literature for dealing with problems where estimating the number of object instances in a scene is the final objective. In this framework, the task of learning to detect and localize individual object instances is seen as a harder task that can be evaded by casting the problem as that of computing a regression value from hand-crafted image features. In this paper we explore the features that are learned when training a counting convolutional neural network in order to understand their underlying representation. To this end we define a counting problem for MNIST data and show that the internal representation of the network is able to classify digits in spite of the fact that no direct supervision was provided for them during training. We also present preliminary results about a deep network that is able to count the number of pedestrians in a scene.

研究の動機と目的

  • オブジェクト認識に必要な境界ボックスのアノテーションなしに、オブジェクトインスタンスの数を数えるように訓練したCNNが、特徴を暗黙的に学習できるかどうかを調査すること。
  • オブジェクト認識タスクにおいて、数え上げが完全に教師あり学習の代理として機能できるかどうかを検討すること。
  • 数え上げタスクから学習した特徴が、下流の分類および局所化問題にどれほど転移可能かを評価すること。
  • 数え上げCNNの内部表現を分析し、それが暗黙的にどのような概念を学習しているかを特定すること。
  • 監視付きオブジェクト検出の代替手段として、数え上げを弱教師あり学習戦略として実世界のシナリオ(例:監視映像における歩行者数え上げ)に適用可能かどうかを実証すること。

提案手法

  • MNISTデータ上でCNNを訓練し、画像レベルのカウント(偶数の数字の個数)のみを教師信号として用いる。
  • ハイパーカラムベースの可視化を用いて、特徴活性化を入力画像の空間的位置にマッピングし、関心対象の概念に対応する領域を特定する。
  • オンラインk-meansクラスタリングを用いて特徴活性化をプロトタイプにグループ化し、その後ℓ1正則化付きSVMを用いてスパースな特徴選択を行う。
  • 事前に特定された陽性領域を条件として、以降の可視化ステップを実行し、関心対象の概念の局所化を精緻化する。
  • 数え上げネットワークから学習した特徴を、偶数・奇数の数字分類や数字認識といった関連タスクに転移適用する。
  • 実際の監視映像データを用いて歩行者数え上げ用の別個のCNNを訓練し、平均絶対誤差および平均二乗誤差を用いて性能を評価する。

実験結果

リサーチクエスチョン

  • RQ1オブジェクトの概念のインスタンス数を数えるように訓練したCNNが、境界ボックスのアノテーションなしに意味的で転移可能な表現を学習できるか?
  • RQ2数え上げが、監視付きオブジェクト検出および分類の代理としてどの程度有効に機能できるか?
  • RQ3どのようなオブジェクトレベルの概念(例:数字、歩行者)が、数え上げの監視のみで局所化および分類可能か?
  • RQ4数え上げCNNの内部表現が、オブジェクトの識別子および空間的配置の知識をどの程度反映しているか?
  • RQ5微調整なしに、数え上げネットワークの性能が分類および局所化などの下流タスクに一般化するか?

主な発見

  • MNIST画像内の偶数の数字を数えるように訓練したCNNは、下流の偶数・奇数の数字分類タスクで高い性能を示し、学習した特徴の転移性を実証した。
  • 可視化により、境界ボックスの監視なしに、偶数の数字が画像内でどの位置にあるかをネットワークが局所化できた。緑色でハイライトされた領域が実際に数字に対応しており、その妥当性が裏付けられた。
  • 歩行者数え上げネットワークは、平均絶対誤差0.74および平均二乗誤差1.12を達成し、実世界データにおいて優れた性能を示した。
  • 可視化により、関心対象の概念(例:偶数の数字や歩行者)に対応する領域のみが明確に活性化されていることが判明し、効果的な特徴学習が行われていることが示された。
  • 数え上げネットワークの内部表現は、明示的なラベルなしに、オブジェクトの識別子および空間的構造に関する情報を暗黙的にエンコードしている。
  • 本手法は、完全に教師ありのオブジェクト検出の代替手段として有望であり、アノテーションコストを削減しながらも高い精度を維持できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。