QUICK REVIEW

[논문 리뷰] Fully Convolutional Instance-aware Semantic Segmentation

Yi Li, Haozhi Qi|arXiv (Cornell University)|2016. 11. 23.

Advanced Image and Video Retrieval Techniques참고 문헌 1인용 수 38

한 줄 요약

이 논문은 객체 인스턴스를 인식하는 세분화를 위한 처음으로 전연결형 엔드 투 엔드 프레임워크인 FCIS를 소개한다. 이는 영역 간 공유된 변환 불변 표현을 가능하게 하는 위치 민감도 점수 맵을 사용하여 객체 인스턴스를 동시에 검출하고 세분화한다. 이는 최신 기술 수준의 성능을 달성했으며, COCO 2016 세분화 경쟁에서 37.6% mAP r @[0.5:0.95]로 1등을 차지했고, MNC와 같은 이전 방법보다 6배 빠르다.

ABSTRACT

We present the first fully convolutional end-to-end solution for instance-aware semantic segmentation task. It inherits all the merits of FCNs for semantic segmentation and instance mask proposal. It performs instance mask prediction and classification jointly. The underlying convolutional representation is fully shared between the two sub-tasks, as well as between all regions of interest. The proposed network is highly integrated and achieves state-of-the-art performance in both accuracy and efficiency. It wins the COCO 2016 segmentation competition by a large margin. Code would be released at \url{https://github.com/daijifeng001/TA-FCN}.

연구 동기 및 목표

영역 기반의 완전히 연결된 하위 네트워크의 비효율성을 피하기 위해 엔드 투 엔드로 작동하는 전연결형 프레임워크를 개발하는 것.
기존의 FCN이 인스턴스 수준의 의미를 처리하는 데 한계를 보이는 문제를 해결하기 위해, 위치 민감도 점수 맵을 통해 변환 불변 표현을 도입하는 것.
특징 왜곡이나 크기 조정 없이 통합된, 파rameter 효율적인 아키텍처를 사용해 객체 인스턴스를 동시에 검출하고 세분화하는 것.
특히 큰 객체와 고해상도 이미지에서 기존 방법보다 더 높은 정확도와 더 빠른 추론 속도를 달성하는 것.

제안 방법

영역 간 관심 영역 내 상대적 공간 위치를 인코딩하기 위해 위치 민감도 내부 및 외부 점수 맵을 사용하여 변환 불변 특징을 유지하면서도 변환 불변 표현을 가능하게 한다.
모든 관심 영역 간 동일한 기초 컨볼루션 특징 맵을 공유함으로써 ROI 풀링이나 특징 크기 조정이 필요 없게 한다.
이 점수 맵을 사용해 단일 통합 전방향 프로세스를 통해 검출과 세분화를 동시에 수행하며, 이 작업을 위한 추가 파라미터가 없다.
슬라이딩 윈도우 대신 RPN(영역 제안 네트워크)에서 유래한 영역 제안을 사용함으로써 다중 해상도 추론이 효율적으로 가능하다.
추가적인 계산 비용 없이 다중 해상도 테스트 및 훈련, 수평 반전 증강을 지원한다.
위치 민감도 점수 맵에 대한 투표를 통해 마스크 예측을 수행함으로써, 완전히 연결된 레이어 없이도 정밀하고 조밀한 예측이 가능하다.

실험 결과

연구 질문

RQ1영역 전용 완전히 연결된 레이어에 의존하지 않고, 엔드 투 엔드로 작동하는 전연결형 네트워크를 설계하여 인스턴스 인식 세분화를 수행할 수 있는가?
RQ2영역 간 특징 공유를 유지하면서도, 전연결형 방식으로 변환 불변 특징을 도입하여 객체 인스턴스를 구분할 수 있는가?
RQ3특징 왜곡 없이 공간 해상도를 유지하면서도, 파rameter 효율적인 방식으로 검출과 세분화 작업을 통합할 수 있는가?
RQ4제안된 방법은 MNC와 같은 최신 기술 수준의 이단계 방법에 비해 정확도와 속도에서 얼마나 향상되는가?
RQ5네트워크 깊이와 다중 해상도 추론, 앙상블 학습과 같은 데이터 증강 전략과 함께 이 방법은 어떻게 스케일링되는가?

주요 결과

FCIS는 COCO 2016 테스트-디브 세트에서 37.6% mAP r @[0.5:0.95]를 달성하여 인스턴스 세분화 도전 대회에서 1등을 차지했다.
2015년 대회 우승자인 MNC++보다 9.2%p 높은 점수를 기록하여 상대적 개선률이 32%였다.
ResNet-101을 사용했을 때 29.2% mAP r @[0.5:0.95]를 달성했으며, 이는 동일한 설정에서 MNC의 25.0%보다 4.2%p 높은 성능이었다.
단일 K40 GPU에서 이미지당 추론 시간은 0.24초였으며, MNC의 1.4초 대비 6배 빠르게 작동했다.
OHEM(온라인 하드 예외 마이닝)의 효과가 크게 나타나, ROI당 비용이 낮아 훈련 오버헤드가 최소화된 상태에서 29.2% mAP를 달성했다.
更深은 네트워크를 사용할수록 정확도가 향상되어 ResNet-152를 사용했을 때 최고 29.5% mAP를 기록하여 양호한 확장성 잠재력을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.