QUICK REVIEW

[논문 리뷰] Semantic Understanding of Scenes through the ADE20K Dataset

Bolei Zhou, Hang Zhao|arXiv (Cornell University)|2016. 08. 18.

Advanced Neural Network Applications참고 문헌 34인용 수 190

한 줄 요약

ADE20K 고밀도 주석 데이터셋을 도입하여 장면, 객체, 부품에 대한 픽셀 단위 라벨을 제공하고 장면 파싱 및 인스턴스 분할의 베이스라인을 제시하며 배치 정규화 효과에 대한 분석을 수행한다.

ABSTRACT

Scene parsing, or recognizing and segmenting objects and stuff in an image, is one of the key problems in computer vision. Despite the community's efforts in data collection, there are still few image datasets covering a wide range of scenes and object categories with dense and detailed annotations for scene parsing. In this paper, we introduce and analyze the ADE20K dataset, spanning diverse annotations of scenes, objects, parts of objects, and in some cases even parts of parts. A generic network design called Cascade Segmentation Module is then proposed to enable the segmentation networks to parse a scene into stuff, objects, and object parts in a cascade. We evaluate the proposed module integrated within two existing semantic segmentation networks, yielding significant improvements for scene parsing. We further show that the scene parsing networks trained on ADE20K can be applied to a wide variety of scenes and objects.

연구 동기 및 목표

다양한 장면, 객체 및 객체 부품을 포괄하는 대규모의 고밀도 주석 이미지 데이터셋을 오픈 보캐버러리 명명으로 생성한다.
ADE20K를 기반으로 한 픽셀 단위의 장면 파싱 및 인스턴스 분할 벤치마크를 제공한다.
기본 분할 모델을 평가하고 오픈 소스 활용성을 위해 최신 방법을 재구현한다.
분할 성능에 대한 동기화된 배치 정규화(SBN) 및 기타 학습 설정의 영향 분석.
객체 및 부품 주석의 공동 학습을 탐색하고 계층적 장면 이해에의 잠재적 응용을 논의한다.

제안 방법

20,210개의 학습 이미지, 2,000개의 검증 이미지, 3,000개의 테스트 이미지를 단일 전문가 주석가를 통해 밀집한 객체, 부품 및 속성 라벨로 주석화한다.
ADE20K로부터 픽셀 단위의 장면 파싱 및 인스턴스 분할 벤치마크를 각각 SceneParse150 및 InstSeg100로 구성한다.
SceneParse150에 대해 DilatedResNet 변형, PSPNet, UPerNet를 포함한 분리된 PyTorch 기반의 최신 모델을 재구현하고 베이스라인과 비교한다.
BN(동기화된 BN, 비동기화 BN, 동결 BN) 설정과 배치 크기를 실험하여 분할 정확도에 미치는 영향을 평가한다.
InstSeg100에서 FPN-50 백본을 사용하는 Mask R-CNN으로 인스턴스 분할을 학습하고 다중 스케일 학습 효과를 분석한다.

실험 결과

연구 질문

RQ1ADE20K의 고밀도 주석이 객체 부품 및 부품의 일부를 포함한 더 넓은 장면 이해를 어떻게 가능하게 하는가?
RQ2SceneParse150에서 픽셀 단위의 장면 파싱을 위한 효과적인 베이스라인 아키텍처와 학습 설정은 무엇인가?
RQ3동기화된 배치 정규화가 ADE20K의 분할 성능에 어떤 영향을 미치는가?
RQ4Mask R-CNN을 사용한 InstSeg100의 기본 성능은 어떠하며 다중 스케일 학습이 그것에 어떤 영향을 주는가?
RQ5객체-부품 관계에서 얻은 인사이트가 장면 이해 및 지식 기반 연결에 어떤 도움을 주는가?

주요 결과

SceneParse150 베이스라인은 DilatedVGG 및 DilatedResNet 변형이 FCN/SegNet보다 평균 IoU가 높으며, 계단식 버전이 추가 이득을 제공합니다.
Re-implemented된 최신 모델(예: PSPNet, UPerNet)은 PyTorch에서 일반 베이스라인보다 평균 IoU를 3-7포인트 높게 보여 컨텍스트의 중요성을 강조합니다.
동기화 BN과 배치 크기가 16일 때 픽셀 정확도와 평균 IoU가 더 높게 나타나며, BN 크기 4가 실용적 임계점에 해당합니다.
InstSeg100 결과는 Mask R-CNN 다중 스케일 학습이 평균 mAP를 상당히 향상시키는 경향을 보이나 작은 물체는 여전히 도전적입니다.
ADE20K의 고밀도 주석은 대부분의 이미지가 다수의 객체(평균 약 19.5 인스턴스, 약 10.5 클래스)를 포함하고 있으며 객체 인스턴스의 76% 이상이 부품을 가지는 것으로 나타납니다(평균 약 3부품/객체).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.