Skip to main content
QUICK REVIEW

[論文レビュー] Searching for Efficient Multi-Scale Architectures for Dense Image Prediction

Liang-Chieh Chen, Maxwell D. Collins|arXiv (Cornell University)|Sep 11, 2018
Domain Adaptation and Few-Shot Learning被引用数 339
ひとこと要約

この論文はニューラルアーキテクチャ探索を密な画像予測に適用し、Dense Prediction Cells (DPCs) を導入し、高速プロキシタスクを用いて、Cityscapes、PASCAL-Person-Part、PASCAL VOC 2012で手作りモデルを上回るアーキテクチャを発見する。

ABSTRACT

The design of neural network architectures is an important component for achieving state-of-the-art performance with machine learning systems across a broad array of tasks. Much work has endeavored to design and build architectures automatically through clever construction of a search space paired with simple learning algorithms. Recent progress has demonstrated that such meta-learning methods may exceed scalable human-invented architectures on image classification tasks. An open question is the degree to which such methods may generalize to new domains. In this work we explore the construction of meta-learning techniques for dense image prediction focused on the tasks of scene parsing, person-part segmentation, and semantic image segmentation. Constructing viable search spaces in this domain is challenging because of the multi-scale representation of visual information and the necessity to operate on high resolution imagery. Based on a survey of techniques in dense image prediction, we construct a recursive search space and demonstrate that even with efficient random search, we can identify architectures that outperform human-invented architectures and achieve state-of-the-art performance on three dense prediction tasks including 82.7\% on Cityscapes (street scene parsing), 71.3\% on PASCAL-Person-Part (person-part segmentation), and 87.9\% on PASCAL VOC 2012 (semantic image segmentation). Additionally, the resulting architecture is more computationally efficient, requiring half the parameters and half the computational cost as previous state of the art systems.

研究の動機と目的

  • dense image prediction の自動的なアーキテクチャ設計を動機づける。
  • 高解像度画像のために多スケールの文脈を捉える扱いやすい探索空間を構築する。
  • フル規模の訓練を行わずに候補アーキテクチャを評価する高速なプロキシタスクを開発する。
  • 提案空間内のランダム探索が、複数の密な予測タスクで人手設計のアーキテクチャを上回ることを示す。

提案手法

  • Dense Prediction Cell (DPC) を、分岐出力を連結して多スケールの文脈を形成する DAG ベースのマルチブランチモジュールとして定義する。
  • 各ブランチの入力をバックボーンの特徴マップまたは前のブランチ出力のいずれかとして指定し、再帰的な多スケール接続を可能にする。
  • 1x1畳み込み、異なるレートを持つ3x3 atrous separable convolutions、異なる格子サイズの空間ピラミッドプーリングなどのオペレータオプションを説明する。
  • ブランチ出力を連結してDPC出力を形成し、並列および連結的な文脈の集約を可能にする。
  • B=5ブランチで、総構成数はおおよそ B! × 81^B の規模となる、巨大だが扱いやすい探索空間を構築する。
  • 評価予算の下で高性能なアーキテクチャを特定するため、ブラックボックス最適化アプローチ(Vizier)とランダム探索を利用する。

実験結果

リサーチクエスチョン

  • RQ1メタ学習/ニューラルアーキテクチャ探索は、密な予測タスクに対してコンパクトで高性能なマルチスケールアーキテクチャを発見できるか。
  • RQ2慎重に設計された再帰的マルチスケール探索空間(DPC)と高速なプロキシタスクは、シーンラベリングなどの関連タスクで人手設計モデルを超えるアーキテクチャを生み出すか。
  • RQ3発見された DPC アーキテクチャは、Cityscapes、PASCAL-Person-Part、PASCAL VOC 2012 において、精度と効率の点で既存の最先端手法とどのように比較されるか。

主な発見

  • Dense Prediction Cell 空間に対するランダム探索は、3つの密な予測タスクで人間設計のベースラインを上回るアーキテクチャを特定できる。
  • 最良の DPC アーキテクチャは Cityscapes テストで 82.7% mIOU を達成し、前技術の最先端を0.7ポイント上回った。
  • 同じアーキテクチャを PASCAL-Person-Part および PASCAL VOC 2012 に適用すると、それぞれ 71.34% および 87.9% mIOU を達成し、従来の結果を上回った。
  • 学習された DPC は、強力なバックボーン(Xception)を使用した場合、従来の最先端システムと比較してパラメータ数が約半分、MAdds も約半分を必要とした。
  • 小さなバックボーンとキャッシュ済み活性を用いた設計済みプロキシタスクは、大規模性能と相関し(Spearman ρ は約0.47程度まで)、効率的なアーキテクチャ探索を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。