Skip to main content
QUICK REVIEW

[論文レビュー] Learning Deep Structured Multi-Scale Features using Attention-Gated CRFs for Contour Prediction

Dan Xu, Wanli Ouyang|arXiv (Cornell University)|Jan 1, 2018
Advanced Image Fusion Techniques参考文献 42被引用数 103
ひとこと要約

AMH-Netを導入、Attention-Gated CRFsを用いた2レベル階層CNNでマルチスケール特徴を統合し、輪郭検出で最先端の BSDS500 および NYUDv2 の結果を達成。

ABSTRACT

Recent works have shown that exploiting multi-scale representations deeply learned via convolutional neural networks (CNN) is of tremendous importance for accurate contour detection. This paper presents a novel approach for predicting contours which advances the state of the art in two fundamental aspects, i.e. multi-scale feature generation and fusion. Different from previous works directly consider- ing multi-scale feature maps obtained from the inner layers of a primary CNN architecture, we introduce a hierarchical deep model which produces more rich and complementary representations. Furthermore, to refine and robustly fuse the representations learned at different scales, the novel Attention-Gated Conditional Random Fields (AG-CRFs) are proposed. The experiments ran on two publicly available datasets (BSDS500 and NYUDv2) demonstrate the effectiveness of the latent AG-CRF model and of the overall hierarchical framework.

研究の動機と目的

  • 単純な結合や平均化を超えた、輪郭予測のためのより豊かで相補的なマルチスケール表現の利用を動機づける。
  • Attention-Gated Conditional Random Fields (AG-CRFs)を提案し、多尺度特徴を頑健に融合・洗練する。
  • AG-CRFsを2レベルの階層型CNN(AMH-Net)に統合し、深層監督付きでエンドツーエンド学習する。
  • BSDS500およびNYUDv2データセットにおいて最先端手法を上回る改善を示す。

提案手法

  • フロントエンドCNNからのS個のマルチスケール特徴マップの集合を定義する。
  • cross-scale情報の流れを制御するゲートgを用いて潜在的な多尺度表現h_sを学習する(AG-CRFs)。
  • h_sを観測特徴f_sに結びつけるガウス的一項ポテンシャルと、スケール間のゲート付き双線形対称ポテンシャルを用いる。
  • 平均場近似によりgとHを推定する。ゲートの期待値はアテンションとして機能し、スケール間のメッセージ伝搬を調整する。
  • 2つのバリアントを提供: 完全潜在的FLAG-CRFsと部分潜在的PLAG-CRFsで、アテンションは観測特徴または潜在変数から導出可能。
  • 畳み込みメッセージ伝搬、アテンション推定、ゲート付き融合ステップを含むニューラルネットワーク層としてAG-CRF更新を実装。
  • 各層ごとに3つの表現(Dアップサンプリング、C同じサイズ、Mダウンサンプリング)を統合して、層内および層間のマルチスケール特徴をより豊かに得る AMH-Net を構築する。
  • 深層監督付きのエンドツーエンド学習と、クラス不均衡を考慮したクロスエントロピー損失で訓練する。
  • テスト時には複数のAG-CRF分類器の出力を平均してスケール予測を融合する。

実験結果

リサーチクエスチョン

  • RQ1注意ゲート付きCRFを介してマルチスケールCNN特徴間の複雑な関係をモデル化・活用することは、単純な融合戦略より輪郭予測を改善できるか。
  • RQ2AG-CRFsと組み合わせた2レベルの階層的マルチスケールネットワークは、標準ベンチマークでより豊かな表現とより良い輪郭精度を生み出すか。
  • RQ3異なるAG-CRFバリアント(FLAG-CRFs vs PLAG-CRFs)が輪郭検出性能に与える影響はどのようか。
  • RQ4深層監督とアブレーションが最終性能に与える寄与は何か。

主な発見

DatasetMethodODSOISAP
BSDS500AMH-Net (fusion).798.829.869
BSDS500HED (RGB).788.808.840
BSDS500COB.793.820.859
BSDS500DeepContour.756.773.797
BSDS500AMH-Net (FLAG-CRFs).?????????
NYUDv2AMH-Net RGB.744.758.765
NYUDv2AMH-Net HHA.716.729.734
NYUDv2AMH-Net RGB+HHA.771.786.802
  • AMH-Net(融合)はODS 0.798を達成し、BSDS500で従来法を上回る。
  • NYUDv2では、RGB+HHAを用いたAMH-Netが全体で0.771 (ODS)および0.802 (AP)に達する。
  • FLAG-CRFsはODS、OIS、APのいずれにおいても、PLAG-CRFsおよび非アテンションCRFのベースラインを一貫して上回る。
  • アブレーション研究は、AG-CRFsまたは深層監督を除去すると性能が低下することを示しており、階層的マルチスケール融合とアテンションの有効性を裏付ける。
  • RGB+HHAを用いたAMH-Netは、従来の特徴量やこれまでのCNNベースの輪郭検出器を両データセットで大幅に上回る。
  • 提案手法は3つのスケールのみを使用しても最先端の結果を達成しており、追加スケールを用いることでさらなる改善の余地があることを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。