Skip to main content
QUICK REVIEW

[論文レビュー] Semantic Understanding of Scenes through the ADE20K Dataset

Bolei Zhou, Hang Zhao|arXiv (Cornell University)|Aug 18, 2016
Advanced Neural Network Applications参考文献 34被引用数 190
ひとこと要約

ADE20Kの密に注釈されたデータセットを導入し、シーン、オブジェクト、部品のピクセル単位ラベルを提供し、シーン解析とインスタンス分割のベースラインと、バッチ正規化の影響の分析を行う。

ABSTRACT

Scene parsing, or recognizing and segmenting objects and stuff in an image, is one of the key problems in computer vision. Despite the community's efforts in data collection, there are still few image datasets covering a wide range of scenes and object categories with dense and detailed annotations for scene parsing. In this paper, we introduce and analyze the ADE20K dataset, spanning diverse annotations of scenes, objects, parts of objects, and in some cases even parts of parts. A generic network design called Cascade Segmentation Module is then proposed to enable the segmentation networks to parse a scene into stuff, objects, and object parts in a cascade. We evaluate the proposed module integrated within two existing semantic segmentation networks, yielding significant improvements for scene parsing. We further show that the scene parsing networks trained on ADE20K can be applied to a wide variety of scenes and objects.

研究の動機と目的

  • diverseなシーン、オブジェクト、オブジェクト部品をオープン語彙 namingで網羅する大規模で密に注釈された画像データセットを作成する。
  • ADE20Kを基盤としたシーン解析とインスタンス分割のピクセル-wise ベンチマークを提供する。
  • ベースライン分割モデルを評価し、オープンソースで入手可能な方法の再実装を行う。
  • 同期型バッチ正規化と他の訓練設定が分割性能に与える影響を分析する。
  • オブジェクトと部品の注釈を共同訓練し、階層的なシーン理解への適用可能性を検討する。

提案手法

  • 単一の専門 annotator による dense object、part、attribute ラベルを用いて 20,210 件の訓練、2,000 件の検証、3,000 件のテスト画像を注釈する。
  • ADE20K からピクセル-wise のシーン解析とインスタンス分割用の SceneParse150 および InstSeg100 ベンチマークを構築する。
  • PyTorchベースでシーン解析の最先端モデルを再実装・公開する(DilatedResNet 系、PSPNet、UPerNetを含む)し SceneParse150 で評価する。
  • 分布の同期/非同期/BN 固定などのバッチ正規化設定とバッチサイズを実験し、分割精度への影響を評価する。
  • InstSeg100 で Mask R-CNN と FPN-50 バックボーンを用いてインスタンス分割を訓練し、マルチスケール訓練の効果を分析する。

実験結果

リサーチクエスチョン

  • RQ1ADE20K の密な注釈は、オブジェクト部品および部品の部品を含むより広範なシーン理解をどのように可能にするか?
  • RQ2SceneParse150 でピクセル-wise なシーン解析の効果的なベースラインアーキテクチャと訓練設定は何か?
  • RQ3同期型バッチ正規化は ADE20K の分割性能にどのような影響を与えるか?
  • RQ4Mask R-CNN を用いた InstSeg100 のベースライン性能はどの程度か、マルチスケール訓練はどのように影響するか?
  • RQ5オブジェクト-部品の関係性から得られる知見は、シーン理解と知識ベースの連携にどのように貢献するか?

主な発見

  • SceneParse150 のベースラインは DilatedVGG および DilatedResNet 系が FCN/SegNet より高い mean IoU を示し、カスケード版がさらなる向上を提供する。
  • PyTorch で再実装した最先端モデル(例:PSPNet、UPerNet)は、平坦なベースラインより mean IoU を 3-7 ポイント向上させ、文脈の重要性を強調する。
  • 同期 BN でバッチサイズが 16 の場合、小さい設定や非同期 BN より Pixel Acc. と Mean IoU が高くなる。BN サイズの実践的閾値は約 4。
  • InstSeg100 の結果は Mask R-CNN のマルチスケール訓練が mean mAP を大幅に改善(例:全体で 0.1832 から 0.2241 へ)、ただし小さな物体は依然として難しい。
  • ADE20K の密注釈はほとんどの画像に複数のオブジェクトが含まれること(平均約19.5件のインスタンス、約10.5クラス)、およびオブジェクトインスタンスの76% 超が部品を持つこと(平均約3部品/オブジェクト)を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。