Skip to main content
QUICK REVIEW

[논문 리뷰] Semantic Edge Detection with Diverse Deep Supervision

Yun Liu, Ming‐Ming Cheng|arXiv (Cornell University)|2018. 04. 09.
Advanced Image and Video Retrieval Techniques참고 문헌 67인용 수 40
한 줄 요약

DDS는 단일 백본에서 다양한 깊은 감독을 가능하게 하는 정보 변환기를 도입하여 의미적 에지 검출에서 SBD와 Cityscapes에서 최첨단 성능을 달성합니다.

ABSTRACT

Semantic edge detection (SED), which aims at jointly extracting edges as well as their category information, has far-reaching applications in domains such as semantic segmentation, object proposal generation, and object recognition. SED naturally requires achieving two distinct supervision targets: locating fine detailed edges and identifying high-level semantics. Our motivation comes from the hypothesis that such distinct targets prevent state-of-the-art SED methods from effectively using deep supervision to improve results. To this end, we propose a novel fully convolutional neural network using diverse deep supervision (DDS) within a multi-task framework where bottom layers aim at generating category-agnostic edges, while top layers are responsible for the detection of category-aware semantic edges. To overcome the hypothesized supervision challenge, a novel information converter unit is introduced, whose effectiveness has been extensively evaluated on SBD and Cityscapes datasets.

연구 동기 및 목표

  • 기존 SED 방법이 서로 상충하는 감독 목표 때문에 깊은 감독의 이점을 얻지 못하는 이유를 분석한다.
  • 정보 변환기를 사용하여 하단과 상단 레이어에 서로 다른 감독을 간접적으로 적용하는 DDS 아키텍처를 제안한다.
  • 하단 측 감독이 변환기를 통해 버퍼링되고 상단 의미 에지와 융합될 때 로컬라이제이션이 개선되는지 보여준다.
  • SBD와 Cityscapes에서 DDS를 평가하여 최첨단 성능을 입증하고 설계 선택을 제거(ablate)한다.

제안 방법

  • Side-1부터 Side-4까지를 생성하는 이진 카테고리 무관 에지 맵을 정보 변환기를 통해 얻는 ResNet 기반 백본을 채택한다.
  • 하단 레이어 특징을 버퍼링하고 하단(카테고리 무관)과 상단(의미적) 목표에 대해 두 개의 독립적인 손실을 가능하게 하는 정보 변환기 유닛을 도입한다.
  • Side-5에서 의미 에지를 계산하고 하단 에지 출력과 겹쳐져 최종 의미 에지를 생성하기 위해 스택드 에지 활성화 맵과 K-그룹 1x1 컨볼루션을 통해 융합한다.
  • 다중 태스크 손실을 L_side^(m) (m in 1..4)와 최종 의미 에지 맵에 대한 L_fuse를 결합한 형태로 학습하고 (3)-(6)식과 같이 재가중 교차 엔트로피를 사용한다.
  • 대체 무가중치 손실 버전(DDS-U)과 SEAL 정렬된 변형(DDS-R)으로 감독 전략을 탐색한다.
  • CASENet에서 영감을 받은 ResNet 백본 아키텍처를 따라 확장된 확산 합성卷과 이중 업샘플링, COCO에서 사전 학습 후 SBD/Cityscapes에서 미세 조정하는 방식을 따른다.

실험 결과

연구 질문

  • RQ1서로 다른 감독 목표(카테고리 무관 vs. 의미 에지)를 단일 백본에서 효과적으로 분리하여 최적화 충돌 없이 달성할 수 있는가?
  • RQ2정보 변환기 버퍼링이 SED에 유익한 다양한 깊은 감독을 가능하게 하는가?
  • RQ3하단 측 에지를 상단의 의미 에지와 전용 융합 메커니즘으로 결합하면 의미 에지 로컬라이제이션이 향상되는가?
  • RQ4DDS가 CASENet 및 기타 베이스라인, 제거 실험(ablations)을 포함한 표준 SED 벤치마크(SBD, Cityscapes)에서 어떻게 수행하는가?

주요 결과

에어.자전거보트봇.버스고양이의자테이블모터사람화분소파기차TV평균
Softmax74.064.164.852.552.173.268.173.243.156.237.367.468.467.676.742.764.337.564.656.360.2
Basic82.574.280.262.368.080.874.382.952.973.146.179.678.976.080.452.475.448.675.868.070.6
DSN81.675.678.461.367.682.374.682.652.471.945.979.278.376.280.151.974.948.076.566.870.3
CASENet+S484.176.480.763.770.381.373.479.456.970.747.677.581.074.579.954.574.848.372.669.470.9
DDS ∖ Convt83.377.181.763.670.681.273.979.556.871.948.078.381.275.279.754.376.848.975.168.771.3
DDS ∖ Convt †83.675.478.959.969.779.771.977.254.772.042.875.577.171.979.153.476.446.972.666.969.3
DDS ∖ DeSup82.577.481.562.470.881.673.880.556.972.446.677.980.173.479.954.876.647.573.367.870.9
CASENet83.376.080.763.469.281.374.983.254.374.846.480.380.276.680.853.377.250.175.966.871.4
DDS-R85.478.383.365.671.483.075.581.359.175.750.780.282.777.081.658.279.550.276.571.273.3
DDS-U87.279.784.768.373.083.776.782.360.479.450.981.283.678.382.060.182.751.278.072.774.8
  • DDS는 SBD에서 DDS-U가 CASENet 및 DSN 베이스라인보다 높은 평균 F-measure를 달성하는 등 최첨단 성능을 달성한다.
  • 정보 변환기와 하단 측 감독의 제거가 결과를 크게 개선하는 것으로 나타났으며, DDS-R 및 DDS-U 변형이 CASENet 및 다른 베이스라인보다 우수하다.
  • DDS-R 및 DDS-U는 원래 프로토콜 하에서 SBD 벤치마크의 평균 F-measures가 각각 73.3과 74.8에 도달하여 기존 방법을 능가한다.
  • 하단 측 기여가 정보 변환기에 의해 버퍼링될 때 상단의 의미 맵과 융합된 후 더 부드럽고 정밀한 의미 에지가 생성된다.
  • 절차 간의 ablation에서 더 간단한 변환기 설계와 잔차 블록이 대부분의 이익을 제공하여 버퍼링 가설의 타당성을 확인한다.
  • DDS는 Cityscapes에서도 견고한 이득을 보여 도시 장면 의미 에지 검출 작업에 대한 일반화 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.