QUICK REVIEW

[論文レビュー] Cross Modal Distillation for Supervision Transfer

Saurabh Gupta, Judy Hoffman|arXiv (Cornell University)|Jul 2, 2015

Advanced Vision and Imaging参考文献 45被引用数 23

ひとこと要約

本論文は、事前学習モデルのミドルレベル特徴を用いて、大規模なラベル付きモダリティ（例：RGB画像）からラベルなしペairedモダリティ（例：深度または光流）へ監視信号を転送するためのクロスモダリティ・ディスティルレーションを提案する。この手法は、追加のアノテーションを一切使用せず、ラベルなしペアデータのみを用いて、NYUD2ではオブジェクト検出のmAPを34.2％から41.7％へ、JHMDBでは31.7％から35.7％へ向上させ、最先端の性能を達成した。

ABSTRACT

In this work we propose a technique that transfers supervision between images from different modalities. We use learned representations from a large labeled modality as a supervisory signal for training representations for a new unlabeled paired modality. Our method enables learning of rich representations for unlabeled modalities and can be used as a pre-training procedure for new modalities with limited labeled data. We show experimental results where we transfer supervision from labeled RGB images to unlabeled depth and optical flow images and demonstrate large improvements for both these cross modal supervision transfers. Code, data and pre-trained models are available at https://github.com/s-gupta/fast-rcnn/tree/distillation

研究の動機と目的

大規模なラベル付きデータセットが存在しない新しい画像モダリティ（例：深度、光流）において、豊かな表現を学習する課題に対処すること。
ラベル付きペアモダリティ（例：ImageNetのRGB）から、ラベルなしペアモダリティへの知識転送を、ラベルなし画像ペアのみを用いて実現すること。
大規模なアノテーション作業にかかるコストを回避しつつ、下流タスクで優れた性能を達成できる、新しいモダリティ向けの事前学習手法を開発すること。
ソースモダリティのミドルレベル特徴が、ラベルが限られたりまったくないターゲットモダリティにおいても、表現学習の監視信号として効果的に機能することを示すこと。
RGBで学習されたオブジェクト検出器を、転送された表現を用いて深度または光流モダリティでゼロショットで動作可能にする手法を実現すること。

提案手法

ImageNetのRGB画像など、ラベル付きソースモダリティ上で畳み込みニューラルネットワーク（CNN）を学習し、ミドルレベルの意味的表現を獲得する。
ソースモダリティのミドルレベル特徴を監視信号として用い、ラベルなしのペアドターゲットモダリティ（例：深度または光流画像）上でCNNを学習する。
両モダリティのペアド画像を活用し、ドメイン間の表現を整列させる。この際、ソースモデルの特徴マップがターゲットモデルの学習をガイドする。
同じモダリティ内での知識蒸留ではなく、異なるモダリティ間での知識転送を実現する。これにより、クロスモダリティ監視信号の転送が可能になる。
ソースおよびターゲットネットワークの両方で標準的なCNNアーキテクチャ（例：AlexNetやVGG）を用い、ターゲットネットワークがソースネットワークの中間活性化を再現するように学習する。
得られたモデルをオブジェクト検出やアクティビティ認識などの下流タスクで微調整し、完全に教師ありの事前学習に近い性能を達成する。

実験結果

リサーチクエスチョン

RQ1大規模なラベル付きモダリティ（例：RGB）のミドルレベル特徴を、ラベルなしペアドモダリティ（例：深度）の表現学習に監視信号として用いることは可能か？これはターゲットモダリティにラベルデータを一切必要としない。
RQ2ラベルなしペアデータのみを用いる場合、クロスモダリティ・ディスティルレーションがオブジェクト検出などの下流ビジョンタスクの性能をどの程度向上させられるか？
RQ3クロスモダリティ・ディスティルーションで事前学習されたモデルの性能は、ランダム初期化と完全に教師ありの事前学習（ターゲットモダリティ）と比べてどうなるか？
RQ4転送された表現は、1つのモダリティで学習された検出器を、別のモダリティ（例：RGB検出器を深度画像で動作可能にする）にゼロショットで適応可能にするか？

主な発見

NYUD2データセットでは、クロスモダリティ・ディスティルレーションにより、オブジェクト検出のmAPが、ラベルなし初期化時（34.2％）から深度画像のみを用いて41.7％へ向上し、以前の最先端性能を上回った。
RGBと深度特徴を組み合わせた場合、標準的な事前学習に比べてmAPが46.2％から49.1％へ上昇し、マルチモーダル特徴の相乗効果を示した。
JHMDBデータセットでは、RGBから光流への監視信号転送により、アクティビティ検出のmAPが、ラベルなし初期化時（31.7％）から35.7％へ向上し、完全に教師ありの事前学習性能（38.4％）の半分以上に達した。
AlexNetからAlexNetへのディスティルレーションは、10万イテレーションで2.5時間の学習時間で実現可能であり、ImageNet規模のデータでランダム初期化から学習するのと比べて、桁違いに高速であった。
RGBモデルにVGG-16を用いることで、NYUD2のオブジェクト検出mAPは42.1％まで向上し、より深いアーキテクチャへのスケーラビリティを示した。
転送された表現はターゲットモダリティで有用な階層的特徴を学習し、ソースモダリティ特徴と補完的であったため、マルチモーダル環境でも性能向上が達成された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。