QUICK REVIEW

[논문 리뷰] Learning Deep Structured Multi-Scale Features using Attention-Gated CRFs for Contour Prediction

Dan Xu, Wanli Ouyang|arXiv (Cornell University)|2018. 01. 01.

Advanced Image Fusion Techniques참고 문헌 42인용 수 103

한 줄 요약

AMH-Net을 소개하는 두 수준 계층적 CNN과 Attention-Gated CRFs가 다중 스케일 특징을 윤곽 탐지에 융합하며, BSDS500와 NYUDv2에서 최첨단 결과를 달성한다.

ABSTRACT

Recent works have shown that exploiting multi-scale representations deeply learned via convolutional neural networks (CNN) is of tremendous importance for accurate contour detection. This paper presents a novel approach for predicting contours which advances the state of the art in two fundamental aspects, i.e. multi-scale feature generation and fusion. Different from previous works directly consider- ing multi-scale feature maps obtained from the inner layers of a primary CNN architecture, we introduce a hierarchical deep model which produces more rich and complementary representations. Furthermore, to refine and robustly fuse the representations learned at different scales, the novel Attention-Gated Conditional Random Fields (AG-CRFs) are proposed. The experiments ran on two publicly available datasets (BSDS500 and NYUDv2) demonstrate the effectiveness of the latent AG-CRF model and of the overall hierarchical framework.

연구 동기 및 목표

단순한 연결이나 평균화 이상의 더 풍부하고 보완적인 다중 스케일 표현을 윤곽 예측에 활용하도록 동기를 부여한다.
Attention-Gated Conditional Random Fields (AG-CRFs)를 제안하여 다중 스케일 특징을 견고하게 융합하고 정제한다.
AG-CRFs를 두 수준의 계층적 CNN(AMH-Net)에 통합하고 깊은 감독으로 엔드-투-엔드로 학습한다.
BSDS500 및 NYUDv2 데이터셋에서 최첨단 방법들보다 향상을 입증한다.

제안 방법

전면 CNN으로부터 S개의 다중 스케일 특징 맵 집합을 정의한다.
크로스 스케일 정보 흐름을 제어하는 게이트 g가 있는 은닉 다중 스케일 표현 h_s를 학습한다 (AG-CRFs).
관측 특징 f_s에 h_s를 연결하는 Gaussian unary potential과 스케일 간의 bilinear gated pairwise potential을 사용한다.
평균장 업데이트를 통해 g와 H를 추론한다; 게이트 기대값은 inter-scale 메시지 전달을 조정하는 주의(attention) 역할을 한다.
두 가지 변형을 제공: 완전히 잠재적인 FLAG-CRFs와 부분적으로 잠재적인 PLAG-CRFs로, 주의(attention)는 관측 특징이나 잠재 변수에서 도출될 수 있다.
AG-CRF 업데이트를 컨볼루션 메시지 전달, 주의 추정, 게이트 융합 단계를 포함하는 신경망 계층으로 구현한다.
레이어당 세 가지 표현(D upsampling, C 같은 크기, M 다운샘플링)을 융합하여 더 풍부한 계층 내/계층 간 다중 스케일 특징을 얻도록 AMH-Net을 구성한다.
깊은 감독과 클래스 불균형 인식 Cross-Entropy 손실로 엔드-투-엔드 학습한다.
테스트 시 다수의 AG-CRF 분류기의 출력을 평균내어 스케일 예측을 융합한다.

실험 결과

연구 질문

RQ1다중 스케일 CNN 특징 간의 복잡한 관계를 주의가 반영된 CRF를 통해 모델링하고 활용하는 것이 간단한 융합 전략보다 윤곽 예측을 개선하는가?
RQ2두 수준의 계층적 다중 스케일 네트워크와 AG-CRFs 조합이 더 풍부한 표현과 표준 벤치에서의 더 좋은 컨투어 정확도를 제공하는가?
RQ3다른 AG-CRF 변형들(FLAG-CRFs 대 PLAG-CRFs)이 윤곽 탐지 성능에 어떤 영향을 미치는가?
RQ4깊은 감독과 ablation이 최종 성능에 어떤 기여를 하는가?

주요 결과

데이터셋	방법	ODS	OIS	AP
BSDS500	AMH-Net (fusion)	.798	.829	.869
BSDS500	HED (RGB)	.788	.808	.840
BSDS500	COB	.793	.820	.859
BSDS500	DeepContour	.756	.773	.797
BSDS500	AMH-Net (FLAG-CRFs)	.???	???	???
NYUDv2	AMH-Net RGB	.744	.758	.765
NYUDv2	AMH-Net HHA	.716	.729	.734
NYUDv2	AMH-Net RGB+HHA	.771	.786	.802

AMH-Net (fusion)이 BSDS500에서 ODS 0.798의 성능으로 이전 방법들을 앞서고 있다.
NYUDv2에서 AMH-Net RGB+HHA가 전체적으로 최대 0.771(ODS)과 0.802(AP)을 달성한다.
FLAG-CRFs는 ODS, OIS, AP에서 일관되게 PLAG-CRFs 및 비-attention CRF 베이스라인을 능가한다.
ablation 연구는 AG-CRFs 또는 깊은 감독을 제거하면 성능이 저하되며, 계층적 다중 스케일 융합과 주의의 효과를 확인한다.
AMH-Net은 RGB+HHA를 사용하여 두 데이터셋에서 전통적인 특징 및 이전 CNN 기반 컨투어 탐지기들을 크게 능가한다.
제안된 방법은 세 가지 스케일만 사용해도 최첨단 결과를 달성하므로 추가 스케일로의 확장 여지가 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.