Skip to main content
QUICK REVIEW

[논문 리뷰] Learning Deep Structured Multi-Scale Features using Attention-Gated CRFs for Contour Prediction

Dan Xu, Wanli Ouyang|arXiv (Cornell University)|2018. 01. 01.
Advanced Image Fusion Techniques참고 문헌 42인용 수 103
한 줄 요약

AMH-Net을 소개하는 두 수준 계층적 CNN과 Attention-Gated CRFs가 다중 스케일 특징을 윤곽 탐지에 융합하며, BSDS500와 NYUDv2에서 최첨단 결과를 달성한다.

ABSTRACT

Recent works have shown that exploiting multi-scale representations deeply learned via convolutional neural networks (CNN) is of tremendous importance for accurate contour detection. This paper presents a novel approach for predicting contours which advances the state of the art in two fundamental aspects, i.e. multi-scale feature generation and fusion. Different from previous works directly consider- ing multi-scale feature maps obtained from the inner layers of a primary CNN architecture, we introduce a hierarchical deep model which produces more rich and complementary representations. Furthermore, to refine and robustly fuse the representations learned at different scales, the novel Attention-Gated Conditional Random Fields (AG-CRFs) are proposed. The experiments ran on two publicly available datasets (BSDS500 and NYUDv2) demonstrate the effectiveness of the latent AG-CRF model and of the overall hierarchical framework.

연구 동기 및 목표

  • 단순한 연결이나 평균화 이상의 더 풍부하고 보완적인 다중 스케일 표현을 윤곽 예측에 활용하도록 동기를 부여한다.
  • Attention-Gated Conditional Random Fields (AG-CRFs)를 제안하여 다중 스케일 특징을 견고하게 융합하고 정제한다.
  • AG-CRFs를 두 수준의 계층적 CNN(AMH-Net)에 통합하고 깊은 감독으로 엔드-투-엔드로 학습한다.
  • BSDS500 및 NYUDv2 데이터셋에서 최첨단 방법들보다 향상을 입증한다.

제안 방법

  • 전면 CNN으로부터 S개의 다중 스케일 특징 맵 집합을 정의한다.
  • 크로스 스케일 정보 흐름을 제어하는 게이트 g가 있는 은닉 다중 스케일 표현 h_s를 학습한다 (AG-CRFs).
  • 관측 특징 f_s에 h_s를 연결하는 Gaussian unary potential과 스케일 간의 bilinear gated pairwise potential을 사용한다.
  • 평균장 업데이트를 통해 g와 H를 추론한다; 게이트 기대값은 inter-scale 메시지 전달을 조정하는 주의(attention) 역할을 한다.
  • 두 가지 변형을 제공: 완전히 잠재적인 FLAG-CRFs와 부분적으로 잠재적인 PLAG-CRFs로, 주의(attention)는 관측 특징이나 잠재 변수에서 도출될 수 있다.
  • AG-CRF 업데이트를 컨볼루션 메시지 전달, 주의 추정, 게이트 융합 단계를 포함하는 신경망 계층으로 구현한다.
  • 레이어당 세 가지 표현(D upsampling, C 같은 크기, M 다운샘플링)을 융합하여 더 풍부한 계층 내/계층 간 다중 스케일 특징을 얻도록 AMH-Net을 구성한다.
  • 깊은 감독과 클래스 불균형 인식 Cross-Entropy 손실로 엔드-투-엔드 학습한다.
  • 테스트 시 다수의 AG-CRF 분류기의 출력을 평균내어 스케일 예측을 융합한다.

실험 결과

연구 질문

  • RQ1다중 스케일 CNN 특징 간의 복잡한 관계를 주의가 반영된 CRF를 통해 모델링하고 활용하는 것이 간단한 융합 전략보다 윤곽 예측을 개선하는가?
  • RQ2두 수준의 계층적 다중 스케일 네트워크와 AG-CRFs 조합이 더 풍부한 표현과 표준 벤치에서의 더 좋은 컨투어 정확도를 제공하는가?
  • RQ3다른 AG-CRF 변형들(FLAG-CRFs 대 PLAG-CRFs)이 윤곽 탐지 성능에 어떤 영향을 미치는가?
  • RQ4깊은 감독과 ablation이 최종 성능에 어떤 기여를 하는가?

주요 결과

데이터셋방법ODSOISAP
BSDS500AMH-Net (fusion).798.829.869
BSDS500HED (RGB).788.808.840
BSDS500COB.793.820.859
BSDS500DeepContour.756.773.797
BSDS500AMH-Net (FLAG-CRFs).?????????
NYUDv2AMH-Net RGB.744.758.765
NYUDv2AMH-Net HHA.716.729.734
NYUDv2AMH-Net RGB+HHA.771.786.802
  • AMH-Net (fusion)이 BSDS500에서 ODS 0.798의 성능으로 이전 방법들을 앞서고 있다.
  • NYUDv2에서 AMH-Net RGB+HHA가 전체적으로 최대 0.771(ODS)과 0.802(AP)을 달성한다.
  • FLAG-CRFs는 ODS, OIS, AP에서 일관되게 PLAG-CRFs 및 비-attention CRF 베이스라인을 능가한다.
  • ablation 연구는 AG-CRFs 또는 깊은 감독을 제거하면 성능이 저하되며, 계층적 다중 스케일 융합과 주의의 효과를 확인한다.
  • AMH-Net은 RGB+HHA를 사용하여 두 데이터셋에서 전통적인 특징 및 이전 CNN 기반 컨투어 탐지기들을 크게 능가한다.
  • 제안된 방법은 세 가지 스케일만 사용해도 최첨단 결과를 달성하므로 추가 스케일로의 확장 여지가 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.