Skip to main content
QUICK REVIEW

[論文レビュー] DeepLab2: A TensorFlow Library for Deep Labeling

Mark Weber, Huiyu Wang|arXiv (Cornell University)|Jun 17, 2021
Advanced Neural Network Applications参考文献 74被引用数 34
ひとこと要約

DeepLab2 は dense pixel labeling のための TensorFlow 2.x ライブラリで、最先端の DeepLab 派生モデル、訓練/評価コード、および dense prediction タスクを再現し進展させるための pretrained チェックポイントを含みます。

ABSTRACT

DeepLab2 is a TensorFlow library for deep labeling, aiming to provide a state-of-the-art and easy-to-use TensorFlow codebase for general dense pixel prediction problems in computer vision. DeepLab2 includes all our recently developed DeepLab model variants with pretrained checkpoints as well as model training and evaluation code, allowing the community to reproduce and further improve upon the state-of-art systems. To showcase the effectiveness of DeepLab2, our Panoptic-DeepLab employing Axial-SWideRNet as network backbone achieves 68.0% PQ or 83.5% mIoU on Cityscaspes validation set, with only single-scale inference and ImageNet-1K pretrained checkpoints. We hope that publicly sharing our library could facilitate future research on dense pixel labeling tasks and envision new applications of this technology. Code is made publicly available at \url{https://github.com/google-research/deeplab2}.

研究の動機と目的

  • 一般的な dense pixel labeling タスクのための統一された使いやすい TensorFlow コードベースを提供する。
  • 最先端の深層ラベリングモデルを再現し、改善を可能にする。
  • 研究・応用を促進するための pretrained チェックポイントと訓練/評価パイプラインを提供する。

提案手法

  • atrous 畳み込みと ASPP による multi-scale コンテキストを用いた DeepLab 派生モデルの TensorFlow2 での再実装。
  • Panoptic-DeepLab、Axial-DeepLab、MaX-DeepLab、Motion-DeepLab、ViP-DeepLab アーキテクチャの取り込み。
  • MobileNetv3、ResNet、SWideRNet、Axial-ResNet、MaX-DeepLab backbone を含む多様なバックボーンのサポート。
  • 再現性と比較のための pretrained チェックポイントを提供するモデル zoo の整備。
  • 訓練時の AutoAugment 風カラー ジッタリングを含むデータ拡張。

実験結果

リサーチクエスチョン

  • RQ1統一された TensorFlow2 ライブラリは、最先端のバックボーンを用いて、semantic、instance、panoptic、depth、video panoptic などの複数の dense pixel labeling タスクを効率的にサポートできるのか。
  • RQ2提供された DeepLab2 モデルとバックボーンを用いて標準ベンチマーク(例: Cityscapes)でどの程度の性能向上が得られるのか。
  • RQ3Axial-ResNet ファミリと MaX-DeepLab バックボーン構成は、単一スケール推論で競争力のあるパンオプティック分割結果を提供できるのか。

主な発見

  • Axial-SWideRNet バックボーンを用いた Panoptic-DeepLab は Cityscapes の検証セットで 68.0% PQ または 83.5% mIoU を単一スケール推論と ImageNet-1K チェックポイントで達成した。
  • ライブラリには DeepLab、Panoptic-DeepLab、Axial-DeepLab、MaX-DeepLab、Motion-DeepLab、ViP-DeepLab など多数のモデル バリアントと pretrained チェックポイント、訓練/評価コードが含まれる。
  • DeepLab2 は、畳み込みとトランスフォーマー風のアテンションモジュールを統合した柔軟なネットワーク構築のための general Axial-Block 設計を提供する。
  • 包括的なバックボーンサポート(MobileNetv3、ResNet 系列、SWideRNet、Axial-ResNet、MaX-DeepLab バックボーン)により、幅広い性能/効率のトレードオフを実現する。
  • コードとモデル zoo は公開されており、再現性とさらなる研究を促進する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。