[논문 리뷰] Learning Deep Structured Multi-Scale Features using Attention-Gated CRFs for Contour Prediction
AMH-Net을 소개하는 두 수준 계층적 CNN과 Attention-Gated CRFs가 다중 스케일 특징을 윤곽 탐지에 융합하며, BSDS500와 NYUDv2에서 최첨단 결과를 달성한다.
Recent works have shown that exploiting multi-scale representations deeply learned via convolutional neural networks (CNN) is of tremendous importance for accurate contour detection. This paper presents a novel approach for predicting contours which advances the state of the art in two fundamental aspects, i.e. multi-scale feature generation and fusion. Different from previous works directly consider- ing multi-scale feature maps obtained from the inner layers of a primary CNN architecture, we introduce a hierarchical deep model which produces more rich and complementary representations. Furthermore, to refine and robustly fuse the representations learned at different scales, the novel Attention-Gated Conditional Random Fields (AG-CRFs) are proposed. The experiments ran on two publicly available datasets (BSDS500 and NYUDv2) demonstrate the effectiveness of the latent AG-CRF model and of the overall hierarchical framework.
연구 동기 및 목표
- 단순한 연결이나 평균화 이상의 더 풍부하고 보완적인 다중 스케일 표현을 윤곽 예측에 활용하도록 동기를 부여한다.
- Attention-Gated Conditional Random Fields (AG-CRFs)를 제안하여 다중 스케일 특징을 견고하게 융합하고 정제한다.
- AG-CRFs를 두 수준의 계층적 CNN(AMH-Net)에 통합하고 깊은 감독으로 엔드-투-엔드로 학습한다.
- BSDS500 및 NYUDv2 데이터셋에서 최첨단 방법들보다 향상을 입증한다.
제안 방법
- 전면 CNN으로부터 S개의 다중 스케일 특징 맵 집합을 정의한다.
- 크로스 스케일 정보 흐름을 제어하는 게이트 g가 있는 은닉 다중 스케일 표현 h_s를 학습한다 (AG-CRFs).
- 관측 특징 f_s에 h_s를 연결하는 Gaussian unary potential과 스케일 간의 bilinear gated pairwise potential을 사용한다.
- 평균장 업데이트를 통해 g와 H를 추론한다; 게이트 기대값은 inter-scale 메시지 전달을 조정하는 주의(attention) 역할을 한다.
- 두 가지 변형을 제공: 완전히 잠재적인 FLAG-CRFs와 부분적으로 잠재적인 PLAG-CRFs로, 주의(attention)는 관측 특징이나 잠재 변수에서 도출될 수 있다.
- AG-CRF 업데이트를 컨볼루션 메시지 전달, 주의 추정, 게이트 융합 단계를 포함하는 신경망 계층으로 구현한다.
- 레이어당 세 가지 표현(D upsampling, C 같은 크기, M 다운샘플링)을 융합하여 더 풍부한 계층 내/계층 간 다중 스케일 특징을 얻도록 AMH-Net을 구성한다.
- 깊은 감독과 클래스 불균형 인식 Cross-Entropy 손실로 엔드-투-엔드 학습한다.
- 테스트 시 다수의 AG-CRF 분류기의 출력을 평균내어 스케일 예측을 융합한다.
실험 결과
연구 질문
- RQ1다중 스케일 CNN 특징 간의 복잡한 관계를 주의가 반영된 CRF를 통해 모델링하고 활용하는 것이 간단한 융합 전략보다 윤곽 예측을 개선하는가?
- RQ2두 수준의 계층적 다중 스케일 네트워크와 AG-CRFs 조합이 더 풍부한 표현과 표준 벤치에서의 더 좋은 컨투어 정확도를 제공하는가?
- RQ3다른 AG-CRF 변형들(FLAG-CRFs 대 PLAG-CRFs)이 윤곽 탐지 성능에 어떤 영향을 미치는가?
- RQ4깊은 감독과 ablation이 최종 성능에 어떤 기여를 하는가?
주요 결과
| 데이터셋 | 방법 | ODS | OIS | AP |
|---|---|---|---|---|
| BSDS500 | AMH-Net (fusion) | .798 | .829 | .869 |
| BSDS500 | HED (RGB) | .788 | .808 | .840 |
| BSDS500 | COB | .793 | .820 | .859 |
| BSDS500 | DeepContour | .756 | .773 | .797 |
| BSDS500 | AMH-Net (FLAG-CRFs) | .??? | ??? | ??? |
| NYUDv2 | AMH-Net RGB | .744 | .758 | .765 |
| NYUDv2 | AMH-Net HHA | .716 | .729 | .734 |
| NYUDv2 | AMH-Net RGB+HHA | .771 | .786 | .802 |
- AMH-Net (fusion)이 BSDS500에서 ODS 0.798의 성능으로 이전 방법들을 앞서고 있다.
- NYUDv2에서 AMH-Net RGB+HHA가 전체적으로 최대 0.771(ODS)과 0.802(AP)을 달성한다.
- FLAG-CRFs는 ODS, OIS, AP에서 일관되게 PLAG-CRFs 및 비-attention CRF 베이스라인을 능가한다.
- ablation 연구는 AG-CRFs 또는 깊은 감독을 제거하면 성능이 저하되며, 계층적 다중 스케일 융합과 주의의 효과를 확인한다.
- AMH-Net은 RGB+HHA를 사용하여 두 데이터셋에서 전통적인 특징 및 이전 CNN 기반 컨투어 탐지기들을 크게 능가한다.
- 제안된 방법은 세 가지 스케일만 사용해도 최첨단 결과를 달성하므로 추가 스케일로의 확장 여지가 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.