QUICK REVIEW

[論文レビュー] Knowledge Distillation in YOLOX-ViT for Side-Scan Sonar Object Detection

Martin Aubard, László Antal|arXiv (Cornell University)|Jan 1, 2024

Advanced Neural Network Applications被引用数 5

ひとこと要約

本稿では、側方スキャンソナー画像向けの視覚変換器（ViT）拡張型オブジェクト検出器 YOLOX-ViT を提案し、知識蒸留（KD）を用いて小型で効率的なモデルに圧縮する手法を適用している。本手法により、壁検出における誤検出率を最大20.35%まで低減するとともに、mAP50 を 0.13–0.16 向上させ、ViT統合とKDの併用が水中オブジェクト検出の精度と耐障害性を向上させることを示している。

ABSTRACT

In this paper we present YOLOX-ViT, a novel object detection model, and investigate the efficacy of knowledge distillation for model size reduction without sacrificing performance. Focused on underwater robotics, our research addresses key questions about the viability of smaller models and the impact of the visual transformer layer in YOLOX. Furthermore, we introduce a new side-scan sonar image dataset, and use it to evaluate our object detector's performance. Results show that knowledge distillation effectively reduces false positives in wall detection. Additionally, the introduced visual transformer layer significantly improves object detection accuracy in the underwater environment. The source code of the knowledge distillation in the YOLOX-ViT is at https://github.com/remaro-network/KD-YOLOX-ViT.

研究の動機と目的

視覚変換器（ViT）を統合した YOLOX アーキテクチャを用いて、側方スキャンソナー画像におけるオブジェクト検出性能を向上させること。
モデルサイズの縮小を伴わない検出精度の損なわれない知識蒸留の有効性を調査すること。
水中ロボット分野に特化した、壁検出を焦点とした新しい側方スキャンソナー画像データセットを提供すること。
視覚変換器層が、低視認性の水中環境下での特徴抽出および検出耐障害性に与える影響を評価すること。
大規模な教師ネットワークからの蒸留により、コンパクトなモデルにおける誤検出率の低減を実現すること。

提案手法

バックボーンの SPPBottleneck 以降に視覚変換器（ViT）層を挿入し、標準の畳み込みブロックに置き換えた拡張 YOLOX を採用。
標準的な交差エントロピー損失および IoU を用いた損失関数を用いて、より大きな YOLOX-L および YOLOX-L-ViT モデルを「教師」として訓練。
組み合わせ損失を用いた知識蒸留を実施：ℒ = λ·ℒhard + (1−λ)·ℒsoft、ここで ℒhard は正例の交差エントロピー、ℒsoft は教師からのソフトラベル蒸留。
YOLOX-Nano および YOLOX-Nano-ViT モデルを、特徴マップおよびログイットの蒸留に焦点を当てて、より小型な「生徒」モデルに圧縮。
教師モデルの学習ではデータ拡張を適用したが、生徒モデルはオンライン拡張あり・なしの両条件で訓練。
バックボーンからの中間特徴マップに注目したヒントベースの蒸留戦略を採用し、生徒と教師の表現を一致させた。

実験結果

リサーチクエスチョン

RQ1知識蒸留は、側方スキャンソナー画像のオブジェクト検出において、コンパクトな YOLOX モデルの誤検出率を効果的に低減できるか？
RQ2YOLOX に視覚変換器層を統合することで、水中環境下での検出精度と耐障害性が向上するか？
RQ3ViT と知識蒸留の組み合わせが、小型モデルにおける mAP50 および推論効率に与える影響は何か？
RQ4この低データ環境下において、オンラインデータ拡張は大規模および小規模モデルの性能にどのような影響を与えるか？
RQ5ViT 层は、壁などの構造的特徴の検出に特に寄与するように、ソナー画像における特徴抽出を強化できるか？

主な発見

知識蒸留により、L-ViT 教師を用いた YOLOX-Nano-noAug 生徒モデルでは誤検出が 6% 減少し、ViT 拡張教師を用いた場合は 20.35% 減少した。
YOLOX-Nano-ViT-noAug 生徒モデルは、13.9 個の誤検出で動画内での検出率が 38% を達成し、ベースの Nano モデルよりも精度と誤検出制御の両面で優れていた。
YOLOX-L-ViT はオンラインデータ拡張なしで学習した場合、0.41 mAP50 および 98.93% の検出時間率を達成し、YOLOX-L（0.33 mAP50、87.05% 検出）を大きく上回った。
ViT 層の導入により、L モデルでは 8%、Nano モデルでは 23% の検出精度向上が見られ、特に長時間の動画推論において顕著であった。
オンラインデータ拡張なしで学習したモデルは、拡張ありのモデルよりも一般化性能が高く、過学習の傾向も少なかった。特に L および L-ViT のバリアントで顕著であった。
ViT 拡張の生徒モデル（Nano-ViT-noAug）は 0.13 mAP50 および 30.16% の精度を達成し、ViT が小型モデルでも特徴学習を向上させることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。