QUICK REVIEW

[論文レビュー] Cross-Task Transfer for Multimodal Aerial Scene Recognition.

Di Hu, Xuhong Li|arXiv (Cornell University)|May 18, 2020

Speech and Audio Processing被引用数 6

ひとこと要約

本論文は、地理的に位置指定された音声イベントとペアになった新しいマルチモodalデータセットADVANCEを用いて、音声イベント認識から空中シーン認識へのクロスタスク転移学習を提案する。特定の土地被覆タイプと同時に発生する音声の手がかりを活用することで、著者らは音声視覚知識蒸留法および対照的学習を用いて空中シーン分類性能を向上させ、ADVANCEデータセットにおいて最先端の結果を達成した。

ABSTRACT

Aerial scene recognition is a fundamental task in remote sensing and has recently received increased interest. While the visual information from overhead images with powerful models and efficient algorithms yields considerable performance on scene recognition, it still suffers from the variation of ground objects, lighting conditions etc. Inspired by the multi-channel perception theory in cognition science, in this paper, for improving the performance on the aerial scene recognition, we explore a novel audiovisual aerial scene recognition task using both images and sounds as input. Based on an observation that some specific sound events are more likely to be heard at a given geographic location, we propose to exploit the knowledge from the sound events to improve the performance on the aerial scene recognition. For this purpose, we have constructed a new dataset named AuDio Visual Aerial sceNe reCognition datasEt (ADVANCE). With the help of this dataset, we evaluate three proposed approaches for transferring the sound event knowledge to the aerial scene recognition task in a multimodal learning framework, and show the benefit of exploiting the audio information for the aerial scene recognition. The source code is publicly available for reproducibility purposes.

研究の動機と目的

照明や物体の状態に変動がある状況下での画像のみに依存する空中シーン認識の限界を解消すること。
音声イベント情報が空中シーン分類のロバスト性と正確性を向上させることを検証すること。
音声イベント認識から空中シーン認識へ知識を転送するマルチモーダル学習フレームワークを開発すること。
音声視覚空中シーン認識研究を支援する新たなベンチマークデータセットADVANCEを構築すること。

提案手法

上空からの画像と地理的位置が付与された音声イベントを組み合わせた、新しい音声視覚空中シーン認識タスクを提案する。
多様な地理的場所から収集した同期された空中画像と対応する音声記録を含むADVANCEデータセットを構築する。
音声ガイドド知識蒸留、音声監視付き対照的学習、画像と音声特徴の早期統合の3つのクロスタスク転移学習手法を設計する。
画像と音声の入力を用いてマルチモーダルモデルを訓練し、音声信号を視覚モダリティの特徴学習をガイドする。
音声イベント埋め込みを弱い監督として用いて、リソースが限られたあるいは困難な視覚状況下での視覚表現学習を改善する。
ソースコードを公開することで再現可能性とコミュニティの採用を促進する。

実験結果

リサーチクエスチョン

RQ1視覚的変化がある条件下でも、音声イベント情報は空中シーン認識の正確性を向上させることができるか？
RQ2音声イベント認識から空中シーン認識へのクロスタスク転移はどの程度効果的か？
RQ3空中シーン分類において、画像と音声信号を統合するための最も効果的なマルチモーダル学習戦略は何か？
RQ4音声信号の組み込みにより、照明や物体の変化といった視覚ドメインシフトへの感受性が低下するか？

主な発見

提案された音声視覚学習フレームワークは、ADVANCEデータセットにおいて画像のみのベースラインよりも顕著な性能向上を達成した。
音声ガイドド知識蒸留が、さまざまなシーンカテゴリにわたり最も一貫した向上をもたらした。
音声監視付き対照的学習は、特に視界が悪い状況下で特徴の一般化を向上させた。
音声信号の組み込みにより、視覚的ごみが多い都市部のような困難なシーンでの誤り率が低下した。
ADVANCEデータセットは、マルチモーダルリモートセンシング分野における新たな研究方向性を可能にし、今後の研究の強力なベンチマークを提供する。
コードとデータの公開により、再現可能性が促進され、音声視覚シーン理解分野の進展が加速した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。