Skip to main content
QUICK REVIEW

[論文レビュー] Boundary-Aware Segmentation Network for Mobile and Web Applications

Xuebin Qin, Deng-Ping Fan|arXiv (Cornell University)|Jan 12, 2021
Visual Attention and Saliency Detection参考文献 127被引用数 69
ひとこと要約

BASNetは、predict-refineアーキテクチャとハイブリッド損失(BCE+SSIM+IoU)を備えた境界意識の画像分割ネットワークを導入し、顕著物体とカモフラージュ物体の鋭い境界を実現します。70 fpsを超えて動作し、AR Copy & PasteおよびObject Cutアプリを可能にします。

ABSTRACT

Although deep models have greatly improved the accuracy and robustness of image segmentation, obtaining segmentation results with highly accurate boundaries and fine structures is still a challenging problem. In this paper, we propose a simple yet powerful Boundary-Aware Segmentation Network (BASNet), which comprises a predict-refine architecture and a hybrid loss, for highly accurate image segmentation. The predict-refine architecture consists of a densely supervised encoder-decoder network and a residual refinement module, which are respectively used to predict and refine a segmentation probability map. The hybrid loss is a combination of the binary cross entropy, structural similarity and intersection-over-union losses, which guide the network to learn three-level (ie, pixel-, patch- and map- level) hierarchy representations. We evaluate our BASNet on two reverse tasks including salient object segmentation, camouflaged object segmentation, showing that it achieves very competitive performance with sharp segmentation boundaries. Importantly, BASNet runs at over 70 fps on a single GPU which benefits many potential real applications. Based on BASNet, we further developed two (close to) commercial applications: AR COPY & PASTE, in which BASNet is integrated with augmented reality for "COPYING" and "PASTING" real-world objects, and OBJECT CUT, which is a web-based tool for automatic object background removal. Both applications have already drawn huge amount of attention and have important real-world impacts. The code and two applications will be publicly available at: https://github.com/NathanUA/BASNet.

研究の動機と目的

  • 画像分割境界と微細構造の空間的な精度を向上させる。
  • 深いエンコーダ-デコーダと残差リファインメントモジュールを組み合わせた、シンプルでありながら効果的なpredict-refineアーキテクチャを提案する。
  • BCE、SSIM、IoUを統合したハイブリッド損失を設計し、ピクセル・パッチ・マップレベルの表現を監督する。
  • 顕著物体分割とカモフラージュ物体分割で高い性能を示し、実世界アプリケーションを実現する。

提案手法

  • 密に教師付けされたエンコーダ-デコーダ予測モジュールと粗いマップをrefineする残差リファインメントモジュールを備えたBASNetを提案する。
  • BCE、SSIM、IoUを組み合わせたハイブリッド損失を用いて、ピクセル・パッチ・マップレベルの表現にまたがる8つの出力を監督する。
  • 各デコーダ段と追加のリファインメントモジュールが分割マップを生成する深い監督スキームを実装する。
  • 3レベル損失を介して境界忠実度とグローバル領域の精度をバランスさせる。
  • BASNet上に構築された2つの準商用アプリケーション(AR Copy & PasteおよびObject Cut)を提供し、実用性を示す。

実験結果

リサーチクエスチョン

  • RQ1BASNetは顕著物体とカモフラージュ物体の双方に対して、鋭く正確な境界を達成できるか?
  • RQ2提案されたpredict-refineアーキテクチャとハイブリッド損失が、境界および区域指標において標準のエンコーダ-デコーダや単一損失アプローチと比較してどうか。
  • RQ3残差リファインメントモジュールが最終分割品質と境界精度に与える影響は何か。
  • RQ4BASNetベースのアプリケーション(AR Copy & Paste、Object Cut)は実用的でリアルタイムの性能を実世界のケースに提供するか?

主な発見

  • BASNetは6つの顕著物体分割データセットおよびCAM(COD)データセットで競争力のある性能を発揮し、境界評価指標が優れている。
  • モデルは単一GPUで70フレーム/秒を超えて動作し、リアルタイムまたはほぼリアルタイムのアプリケーションを可能にする。
  • ハイブリッド損失(BCE+SSIM+IoU)は、ピクセル・パッチ・マップレベルのターゲットに対して、正確な境界と微細構造を効果的に強調する。
  • 密に監視されたエンコーダ-デコーダ予測モジュールと残差リファインメントモジュールの組み合わせは、ベースラインよりも分割品質を大幅に向上させる。
  • BASNetベースの2つのアプリケーション、AR Copy & PasteおよびObject Cutは、実用的な展開の可能性とユーザーへの影響を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。