QUICK REVIEW

[論文レビュー] Training Constrained Deconvolutional Networks for Road Scene Semantic Segmentation

Germán Ros, Simon Stent|arXiv (Cornell University)|Apr 6, 2016

Advanced Neural Network Applications被引用数 24

ひとこと要約

本論文は、大規模で多領域のデータセット（MDRS3）と制約なしに訓練された高容量なソースネットワーク（S-Net）を用いて、メモリ効率の高いデコンボリューションネットワーク（T-Net）を訓練するための知識蒸留アプローチを提案する。最新のFCNの1%未塔のメモリを使用しているにもかかわらず、T-Netはエンドツーエンド学習を上回り、S-Netからの転移学習によってFCNの性能を同等または上回る精度を達成している。

ABSTRACT

In this work we investigate the problem of road scene semantic segmentation using Deconvolutional Networks (DNs). Several constraints limit the practical performance of DNs in this context: firstly, the paucity of existing pixel-wise labelled training data, and secondly, the memory constraints of embedded hardware, which rule out the practical use of state-of-the-art DN architectures such as fully convolutional networks (FCN). To address the first constraint, we introduce a Multi-Domain Road Scene Semantic Segmentation (MDRS3) dataset, aggregating data from six existing densely and sparsely labelled datasets for training our models, and two existing, separate datasets for testing their generalisation performance. We show that, while MDRS3 offers a greater volume and variety of data, end-to-end training of a memory efficient DN does not yield satisfactory performance. We propose a new training strategy to overcome this, based on (i) the creation of a best-possible source network (S-Net) from the aggregated data, ignoring time and memory constraints; and (ii) the transfer of knowledge from S-Net to the memory-efficient target network (T-Net). We evaluate different techniques for S-Net creation and T-Net transferral, and demonstrate that training a constrained deconvolutional network in this manner can unlock better performance than existing training approaches. Specifically, we show that a target network can be trained to achieve improved accuracy versus an FCN despite using less than 1\% of the memory. We believe that our approach can be useful beyond automotive scenarios where labelled data is similarly scarce or fragmented and where practical constraints exist on the desired model size. We make available our network models and aggregated multi-domain dataset for reproducibility.

研究の動機と目的

埋め込み型自動車システムにおける、正確でメモリ制約のあるデコンボリューションネットワーク（DN）を、道路シーンのセマンティックセグメンテーションに適用する課題に対処すること。
既存のピixeL単位のアノテーション付きデータセットの不足とドメイン特異的バイアスを克服するため、統合的で多領域のトレーニングデータセット（MDRS3）を構築すること。
高容量で制約のないソースネットワーク（S-Net）から得た知識を活用することで、小型で効率的なネットワークの汎化性能と性能を向上させること。
S-Netからメモリ制約のあるターゲットネットワーク（T-Net）へとセマンティックセグメンテーションの知識を転送するためのさまざまな知識転送技術を評価・比較すること。
制約のあるT-Netが、標準のFCNモデルよりも高い精度を達成しながらも、FCNの1%未塔のメモリを使用できるかを実証すること。

提案手法

6つの既存の多様で、スパarsely/denselyアノテートされたデータセットを集約して、マルチドメイン道路シーンセマンティックセグメンテーション（MDRS3）データセットを構築する。
MDRS3データセットの全データを用いて、2億6900万パラメータを持つ高容量かつ制約のないソースネットワーク（S-Net）を訓練し、異なるデータドメインにわたるアンサンブルを用いて性能を最大化する。
知識蒸留技術（具体的にはソフトラベル蒸留、特徴マップマッチング（SMP）、クラスに特化した重み付き交差エントロピー（WCE））を適用し、S-Netから小型でメモリ制約のあるT-Netへと知識を転送する。
S-Netを教師ネットワークとして用いて転移学習を最適化し、TK-SMP-WCEなどの技術を適用して特徴の整合性とクラス固有の監視を向上させる。
トレーニングに使用しなかった2つの別々のテストセット（元のデータセットから抽出）を用いてT-Netの性能を評価し、ドメインシフトに対する耐性と汎化性能を検証する。
ソフトラベル、中間特徴マップ、クラス重み付き損失の組み合わせを用いることで、T-NetがS-Netから複雑なセマンティックパターンを学習する能力を向上させる。

実験結果

リサーチクエスチョン

RQ1大規模で制約のないソースネットワークから知識蒸留を用いて訓練されたメモリ制約のあるデコンボリューションネットワークは、標準のFCNを上回るセマンティックセグメンテーション精度を達成できるか？
RQ2多領域で高容量なS-Netから知識蒸留を行うことで、同じデータに対してエンドツーエンド学習を行う場合と比較して、小型で効率的なT-Netの性能はどのように向上するか？
RQ3ソフトラベル、特徴マップマッチング、クラスに特化した重み付き交差エントロピーのうち、リソース制約のある環境下でT-Netの性能を最も高める知識蒸留手法はどれか？
RQ4多様で多領域のデータセット（MDRS3）で学習することで、セマンティックセグメンテーションモデルの汎化性能が向上し、ドメインバイアスがどの程度低減されるか？
RQ5標準のFCNの1%未塔のメモリを用いるT-Netは、実世界のテストデータにおいてFCNと同等またはそれ以上の精度を達成できるか？

主な発見

知識蒸留を用いて訓練されたT-Net（TK-SMP-WCE）は、グローバル平均IoUが71.8%を達成し、標準のFCN（71.6%）とエンドツーエンドで学習されたT-Net（66.6%）を上回った。
TK-SMP-WCE手法を用いて訓練されたT-Netは、クラス別IoUで59.3%を達成し、ベースラインのFCN（50.6%）とエンドツーエンドT-Net（39.4%）を大きく上回った。
S-Netアンサンブル（2億6900万パラメータ）の0.5%のメモリフットプリントしか持たないにもかかわらず、T-Netは「車両」クラスで93.4%のIoUを達成し、FCNの86.2%を上回った。
TK-SMP-WCE手法で訓練されたT-Netは「歩行者」クラスで78.6%のIoUを達成し、FCNの17.6%とエンドツーエンドT-Netの7.6%を大きく上回り、レアクラスの学習が向上したことを示した。
提案された知識蒸留手法（TK-SMP-WCE）により、S-Net（73.4%）とT-Net（71.8%）のグローバルIoUギャップはわずか1.6ポイントにまで縮小され、知識転送の効率性が非常に高いことが示された。
定性的な結果では、T-Netのセグメンテーション結果がFCNのものよりも視覚的に優れており、特に歩行者や自転車など複雑またはレアなオブジェクトに関して、ノイズの多い正解アノテーションを上回る場合がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。