QUICK REVIEW

[論文レビュー] Learning Deep Structured Multi-Scale Features using Attention-Gated CRFs for Contour Prediction

Dan Xu, Wanli Ouyang|arXiv (Cornell University)|Jan 1, 2018

Advanced Image Fusion Techniques参考文献 42被引用数 103

ひとこと要約

AMH-Netを導入、Attention-Gated CRFsを用いた2レベル階層CNNでマルチスケール特徴を統合し、輪郭検出で最先端の BSDS500 および NYUDv2 の結果を達成。

ABSTRACT

Recent works have shown that exploiting multi-scale representations deeply learned via convolutional neural networks (CNN) is of tremendous importance for accurate contour detection. This paper presents a novel approach for predicting contours which advances the state of the art in two fundamental aspects, i.e. multi-scale feature generation and fusion. Different from previous works directly consider- ing multi-scale feature maps obtained from the inner layers of a primary CNN architecture, we introduce a hierarchical deep model which produces more rich and complementary representations. Furthermore, to refine and robustly fuse the representations learned at different scales, the novel Attention-Gated Conditional Random Fields (AG-CRFs) are proposed. The experiments ran on two publicly available datasets (BSDS500 and NYUDv2) demonstrate the effectiveness of the latent AG-CRF model and of the overall hierarchical framework.

研究の動機と目的

単純な結合や平均化を超えた、輪郭予測のためのより豊かで相補的なマルチスケール表現の利用を動機づける。
Attention-Gated Conditional Random Fields (AG-CRFs)を提案し、多尺度特徴を頑健に融合・洗練する。
AG-CRFsを2レベルの階層型CNN（AMH-Net）に統合し、深層監督付きでエンドツーエンド学習する。
BSDS500およびNYUDv2データセットにおいて最先端手法を上回る改善を示す。

提案手法

フロントエンドCNNからのS個のマルチスケール特徴マップの集合を定義する。
cross-scale情報の流れを制御するゲートgを用いて潜在的な多尺度表現h_sを学習する（AG-CRFs）。
h_sを観測特徴f_sに結びつけるガウス的一項ポテンシャルと、スケール間のゲート付き双線形対称ポテンシャルを用いる。
平均場近似によりgとHを推定する。ゲートの期待値はアテンションとして機能し、スケール間のメッセージ伝搬を調整する。
2つのバリアントを提供: 完全潜在的FLAG-CRFsと部分潜在的PLAG-CRFsで、アテンションは観測特徴または潜在変数から導出可能。
畳み込みメッセージ伝搬、アテンション推定、ゲート付き融合ステップを含むニューラルネットワーク層としてAG-CRF更新を実装。
各層ごとに3つの表現（Dアップサンプリング、C同じサイズ、Mダウンサンプリング）を統合して、層内および層間のマルチスケール特徴をより豊かに得る AMH-Net を構築する。
深層監督付きのエンドツーエンド学習と、クラス不均衡を考慮したクロスエントロピー損失で訓練する。
テスト時には複数のAG-CRF分類器の出力を平均してスケール予測を融合する。

実験結果

リサーチクエスチョン

RQ1注意ゲート付きCRFを介してマルチスケールCNN特徴間の複雑な関係をモデル化・活用することは、単純な融合戦略より輪郭予測を改善できるか。
RQ2AG-CRFsと組み合わせた2レベルの階層的マルチスケールネットワークは、標準ベンチマークでより豊かな表現とより良い輪郭精度を生み出すか。
RQ3異なるAG-CRFバリアント（FLAG-CRFs vs PLAG-CRFs）が輪郭検出性能に与える影響はどのようか。
RQ4深層監督とアブレーションが最終性能に与える寄与は何か。

主な発見

Dataset	Method	ODS	OIS	AP
BSDS500	AMH-Net (fusion)	.798	.829	.869
BSDS500	HED (RGB)	.788	.808	.840
BSDS500	COB	.793	.820	.859
BSDS500	DeepContour	.756	.773	.797
BSDS500	AMH-Net (FLAG-CRFs)	.???	???	???
NYUDv2	AMH-Net RGB	.744	.758	.765
NYUDv2	AMH-Net HHA	.716	.729	.734
NYUDv2	AMH-Net RGB+HHA	.771	.786	.802

AMH-Net（融合）はODS 0.798を達成し、BSDS500で従来法を上回る。
NYUDv2では、RGB+HHAを用いたAMH-Netが全体で0.771 (ODS)および0.802 (AP)に達する。
FLAG-CRFsはODS、OIS、APのいずれにおいても、PLAG-CRFsおよび非アテンションCRFのベースラインを一貫して上回る。
アブレーション研究は、AG-CRFsまたは深層監督を除去すると性能が低下することを示しており、階層的マルチスケール融合とアテンションの有効性を裏付ける。
RGB+HHAを用いたAMH-Netは、従来の特徴量やこれまでのCNNベースの輪郭検出器を両データセットで大幅に上回る。
提案手法は3つのスケールのみを使用しても最先端の結果を達成しており、追加スケールを用いることでさらなる改善の余地があることを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。