QUICK REVIEW

[論文レビュー] Visual Domain Adaptation for Monocular Depth Estimation on Resource-Constrained Hardware

Julia Hornauer, Lazaros Nalpantidis|arXiv (Cornell University)|Aug 5, 2021

Advanced Vision and Imaging参考文献 33被引用数 4

ひとこと要約

本稿は、モノクローラル深度推定におけるリソース制約のあるハードウェア上で深層ニューラルネットワークを訓練するための、初めての実現可能性に関する研究を提示している。エッジデバイスに適した敵対的学習アプローチを提案し、意味のあるドメイン適応が、軽量アーキテクチャと小規模なターゲットドメインデータセット（100～1000サンプル）でのみ達成可能であることを示している。これにより、低消費電力でリアルタイム推論が可能である。

ABSTRACT

Real-world perception systems in many cases build on hardware with limited resources to adhere to cost and power limitations of their carrying system. Deploying deep neural networks on resource-constrained hardware became possible with model compression techniques, as well as efficient and hardware-aware architecture design. However, model adaptation is additionally required due to the diverse operation environments. In this work, we address the problem of training deep neural networks on resource-constrained hardware in the context of visual domain adaptation. We select the task of monocular depth estimation where our goal is to transform a pre-trained model to the target's domain data. While the source domain includes labels, we assume an unlabelled target domain, as it happens in real-world applications. Then, we present an adversarial learning approach that is adapted for training on the device with limited resources. Since visual domain adaptation, i.e. neural network training, has not been previously explored for resource-constrained hardware, we present the first feasibility study for image-based depth estimation. Our experiments show that visual domain adaptation is relevant only for efficient network architectures and training sets at the order of a few hundred samples. Models and code are publicly available.

研究の動機と目的

リソース制約のあるハードウェア上で、モノクローラル深度推定におけるデバイス内での訓練の実現可能性を調査すること。
グランドトゥルース深度ラベルにアクセスできない新しいラベルなし環境に、事前学習済みモデルをデプロイする課題に対処すること。
デバイス内適応におけるモデルの複雑さ、トレーニングデータセットのサイズ、推論速度、消費電力のトレードオフを評価すること。
NVIDIA Jetson Nano や Raspberry Pi といった埋め込みシステムでも、敵対的ドメイン適応が実現可能であることを示すこと。

提案手法

計算能力とメモリが限られたエッジハードウェア上で効率的に動作するように、ドメイン適応のための敵対的学習フレームワークを調整すること。
比較評価のため、軽量ネットワークアーキテクチャ（FastDepth）と複雑なベースライン（ResNet-UpProj）を用いる。
ソースドメインとターゲットドメインの特徴分布を一致させるために、敵対的損失を用いてラベルなしターゲットドメイン画像でモデルを訓練すること。
公平な比較を保証するため、先行研究に従い、深度予測評価にサンプル単位の中央値スケーリングを適用すること。
実用性の評価のため、トレーニング時間、消費電力、推論遅延を測定すること。
入力解像度とデータセットサイズを変化させた、屋内（vKITTI → KITTI）および屋外（KITTI → KITTI）のドメイン適応シナリオにおける実験を実施すること。

実験結果

リサーチクエスチョン

RQ1モノクローラル深度推定において、リソース制約のある埋め込みハードウェア上で敵対的ドメイン適応を効果的に行うことは可能か？
RQ2エッジデバイス上で意味のあるパフォーマンス向上を達成するために、必要な最小限のラベルなしターゲットドメインサンプル数はどの程度か？
RQ3モデルの複雑さは、デバイス内適応時のトレーニング時間、消費電力、推論速度にどのように影響するか？
RQ4NVIDIA Jetson Nano などの埋め込みデバイス上で、深層ニューラルネットワークを直接訓練することは可能か？

主な発見

リソース制約のある埋め込みハードウェアでは、FastDepth などの軽量ネットワークアーキテクチャでのみドメイン適応が可能であり、ResNet-UpProj のような複雑なモデルはメモリ制約のためトレーニングに失敗する。
500～1000 個のターゲットドメインサンプルでトレーニングすることで、パフォーマンス向上、トレーニング時間、エネルギー効率のバランスが最良となる。
FastDepth モデルは、Jetson Nano で最大 10 ミリ秒の推論時間を達成し、リアルタイム性能を実現している。
モデルの複雑さの違いにもかかわらず、消費電力は各アーキテクチャ間で低く、ほぼ同等の水準を維持している。
視覚的結果から、適応後には深度マップの品質が明確に向上しており、特に軽量モデルではオブジェクトの境界がより明確に表現されている。
解像度を高く（288x704）にするとトレーニング時間が延びるが、消費電力や推論速度に顕著な影響は与えない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。