Skip to main content
QUICK REVIEW

[論文レビュー] Relation Distillation Networks for Video Object Detection

Jiajun Deng, Yingwei Pan|arXiv (Cornell University)|Aug 26, 2019
Advanced Neural Network Applications参考文献 53被引用数 29
ひとこと要約

本論文は、フレーム間をまたがる物体関係を段階的に蒸留することで、動画オブジェクト検出の精度を向上させる新しい時空間推論フレームワーク、関係蒸留ネットワーク(RDN)を提案する。マルチステージの推論—まずすべてのサポートプロポーザルから関係を集約し、次に高オブジェクトネスのプロポーザルを精錬して参照フレームに蒸留する—を採用することで、後処理を施した後、ImageNet VIDで84.7%のSOTA mAPを達成し、検出精度とチューブレットリンクの両面で顕著な向上を実現した。

ABSTRACT

It has been well recognized that modeling object-to-object relations would be helpful for object detection. Nevertheless, the problem is not trivial especially when exploring the interactions between objects to boost video object detectors. The difficulty originates from the aspect that reliable object relations in a video should depend on not only the objects in the present frame but also all the supportive objects extracted over a long range span of the video. In this paper, we introduce a new design to capture the interactions across the objects in spatio-temporal context. Specifically, we present Relation Distillation Networks (RDN) --- a new architecture that novelly aggregates and propagates object relation to augment object features for detection. Technically, object proposals are first generated via Region Proposal Networks (RPN). RDN then, on one hand, models object relation via multi-stage reasoning, and on the other, progressively distills relation through refining supportive object proposals with high objectness scores in a cascaded manner. The learnt relation verifies the efficacy on both improving object detection in each frame and box linking across frames. Extensive experiments are conducted on ImageNet VID dataset, and superior results are reported when comparing to state-of-the-art methods. More remarkably, our RDN achieves 81.8% and 83.2% mAP with ResNet-101 and ResNeXt-101, respectively. When further equipped with linking and rescoring, we obtain to-date the best reported mAP of 83.8% and 84.7%.

研究の動機と目的

  • 計算コストとノイズの多いプロポーザルの影響を受けるため、動画内での信頼性の高い長距離物体関係をモデル化する課題に取り組むこと。
  • サポートフレームからの高オブジェクトネスプロポーザルに限定的に注目することで、関係学習の計算オーバーヘッドを低減し、安定性を向上させること。
  • 段階的な精錬と蒸留を用いることで、フレーム内検出とフレーム間ボックスリンクの両方を向上させること。
  • 時空間的整合性を効果的に活用できる、スケーラブルで領域ベースのアーキテクチャを設計すること。

提案手法

  • RDNは、参照フレームおよびサポートフレームから物体プロポーザルを抽出するための領域プロポーザルネットワーク(RPN)を用い、支援プロポーザルプールを形成する。
  • 基本段階では、プール内のすべての支援プロポーザルからの外観および幾何的特徴を集約して、各参照プロポーザルの関係特徴を計算する。
  • 上級段階では、まず支援プール内から高オブジェクトネスプロポーザルを選別し、それらをすべての支援プロポーザルとの関係で強化した後、参照フレーム特徴の精錬に用いる。
  • 本手法は二段階の推論構造を採用している:基本段階では一次関係、上級段階では段階的な精錬により高次関係を処理する。
  • 関係特徴は、他の物体からの外観および幾何的埋め込みの重み付き和として計算され、重みはアテンションメカニズムによって学習される。
  • 最終的な特徴は、蒸留された関係で強化されており、これによりプロポーザル分類および回帰が向上し、検出とチューブレットリンクの両方が改善される。

実験結果

リサーチクエスチョン

  • RQ1計算コストが著しく増大するのを避けるために、長距離の動画フレーム間での物体関係を効果的にモデル化する方法は何か?
  • RQ2高信頼度プロポーザルからの段階的・順次的蒸留により、検出精度と安定性は向上するか?
  • RQ3マルチステージの推論と支援プロポーザルの選択的精錬は、動画オブジェクト検出における時空間特徴学習にどの程度寄与するか?
  • RQ4関係蒸留の統合により、フレーム内検出とフレーム間ボックスリンクの両方が向上するか?

主な発見

  • RDNは、ResNet-101を用いた場合に81.8% mAP、ResNeXt-101を用いた場合に83.2% mAPを達成し、先行研究のSOTAを上回った。
  • ボックスリンクと再スコアリングを施した後処理を適用した後、RDNはImageNet VIDで報告された最高の84.7% mAPを達成した。
  • 上級段階を導入することで、基本段階のみに比べて0.5–1.0% mAPの性能向上が確認され、段階的精錬の有効性が示された。
  • 上級段階における最適なサンプリング比は20%であり、性能と推論速度のバランスを保ち、より高い比でも精度の低下が最小限に抑えられた。
  • 時間的スパン(T)を3から18に増加させると、mAPは80.3%から81.8%に向上したが、T=18を超えると収益が減少した。
  • 本手法は高い効率性を維持しており、Tを3から24に増加させても推論時間がわずかに増加(90.1msから103.1ms)したにとどまった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。