Skip to main content
QUICK REVIEW

[論文レビュー] DUT-LFSaliency: Versatile Dataset and Light Field-to-RGB Saliency Detection

Yongri Piao, Zhengkun Rong|arXiv (Cornell University)|Dec 30, 2020
Visual Attention and Saliency Detection参考文献 73被引用数 23
ひとこと要約

本稿では、102クラスにわたる4,204サンプルを含む大規模な光場データセット(DUTLF-V2)と、光場からRGBへの注目度検出のための非対称な二重ストリームネットワークであるDUT-LFSaliencyを紹介する。Focalストリームは、特化したモジュールを用いて焦点スライスを活用し、デスクトップ環境で最先端のパフォーマンスを達成する。一方、RGBストリームは3つの蒸留スキームを用いて、モジュールサイズを83%削減し、モバイルデバイスでの推論速度を5倍に向上させ、RGB注目度モデルへの高い汎化性を実現する。

ABSTRACT

Light field data exhibit favorable characteristics conducive to saliency detection. The success of learning-based light field saliency detection is heavily dependent on how a comprehensive dataset can be constructed for higher generalizability of models, how high dimensional light field data can be effectively exploited, and how a flexible model can be designed to achieve versatility for desktop computers and mobile devices. To answer these questions, first we introduce a large-scale dataset to enable versatile applications for RGB, RGB-D and light field saliency detection, containing 102 classes and 4204 samples. Second, we present an asymmetrical two-stream model consisting of the Focal stream and RGB stream. The Focal stream is designed to achieve higher performance on desktop computers and transfer focusness knowledge to the RGB stream, relying on two tailor-made modules. The RGB stream guarantees the flexibility and memory/computation efficiency on mobile devices through three distillation schemes. Experiments demonstrate that our Focal stream achieves state-of-the-arts performance. The RGB stream achieves Top-2 F-measure on DUTLF-V2, which tremendously minimizes the model size by 83% and boosts FPS by 5 times, compared with the best performing method. Furthermore, our proposed distillation schemes are applicable to RGB saliency models, achieving impressive performance gains while ensuring flexibility.

研究の動機と目的

  • RGB、RGB-D、および光場入力のすべてに一般化可能な包括的で大規模なデータセットが不足している問題に対処すること。
  • 高次元の光場データを効果的に活用しつつ、モバイルデバイスへの展開を念頭に置いた低計算コスト・低メモリコストを実現するモデルの設計。
  • 効果的な蒸留スキームを用いて、光場ベースの教師ネットワークから軽量なRGBベースの学生ネットワークへの知識転送を可能にすること。
  • デスクトップでの高いパフォーマンスを維持するとともに、モバイルデバイスでの効率性と柔軟性を確保する包括的なフレームワークの開発。

提案手法

  • 4,204個の実世界の光場サンプルを含む大規模なベンチマーク、DUTLF-V2を提案。102のカテゴリにわたり、RGB、深度、マルチビュー、焦点スタックデータを含む。
  • 非対称な二重ストリームネットワークを設計:Focalストリームは、新規のマルチフォーカスネス表現モジュール(MFRM)とマルチフォーカスネススクリーニングモジュール(MFSM)を用いて、完全な光場データを処理し、高いパフォーマンスを達成。
  • 3つの蒸留スキーム(マルチフォーカスネス蒸留:MFD、アテンション付きフォーカスネス蒸留:AFD、スクリーニング付きフォーカスネス蒸留:SFD)を採用し、FocalストリームからRGBベースの学生ネットワークへの知識転送を実現。
  • 学生ネットワークはRGB入力のみで学習され、焦点スライスの必要がなくなる。これにより、最小限のパrameterオーバーヘッドで高い効率性を実現。
  • 学生ネットワークに追加するモジュールは軽量かつパラメータ効率が良く、計算コストの増加はほとんどない。
  • 既存のRGB注目度モデル(例:R3Net、SCRN、CPD)に対しても蒸留スキームを適用し、アーキテクチャの変更なしに汎化性とパフォーマンスの向上を実証。

実験結果

リサーチクエスチョン

  • RQ1大規模かつ多様な光場データセットは、RGB、RGB-D、および光場入力のすべてに一般化可能な深層注目度検出モデルの性能向上に寄与するか?
  • RQ2高次元の光場データは、デスクトップシステムにおける注目度検出パフォーマンスの向上にどのように効果的に活用できるか?
  • RQ3光場ベースの教師ネットワークから、軽量なRGBベースの学生ネットワークへの知識転送は、高い正確性を維持しつつモバイルデバイスへの展開を可能にするか?
  • RQ4蒸留スキームは、モデルサイズや推論コストの増加なしに、既存のRGB注目度モデルの性能をどの程度向上させられるか?
  • RQ5焦点スライスから単一のRGB画像へのフォーカスネス知識の転送において、パフォーマンスと効率のトレードオフはどの程度か?

主な発見

  • Focalストリームは、DUTLF-V2ベンチマークで最先端のパフォーマンスを達成し、MFRMおよびMFSMモジュールがマルチフォーカスネス特徴を効果的に活用できることを示した。
  • RGBストリームはDUTLF-V2でトップ2のF-measureを達成し、最もパフォーマンスの高かった先行研究と比較して、モデルサイズを83%削減し、推論速度を5倍に向上させた。
  • 提案された蒸留スキーム(MFD、AFD、SFD)は、既存のRGB注目度モデルの性能を顕著に向上させ、R3Netに適用した際のMAEを13.8%削減した。
  • 追加パrameterなしの設定により、SFDを既存モデルに直接統合可能となり、アーキテクチャの変更なしにロバスト性と一貫性が向上した。
  • わずかなパrameter追加(少数の追加パラメータ)設定では、3つの蒸留スキームを統合した結果、最大の性能向上が得られ、わずかなアーキテクチャ変更でも顕著な改善が可能であることを示した。
  • 可視化比較により、蒸留により、特に小さなまたは類似した注目オブジェクトを含む困難なシーンでも、より正確で一貫性のある注目度マップが得られることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。