[논문 리뷰] Compositional Convolutional Networks For Robust Object Classification under Occlusion.
이 논문은 부분적 가림과 마스크 공격 상황에서도 강건한 객체 분류를 달성하기 위해 딥 컨volution 신경망(DCNNs)과 조합적 객체 모델을 융합한 하이브리드 모델을 제안한다. DCNN 특징을 이용해 초기 분류 및 불확실성 탐지 수행하고, 가려진 경우에 학습된 부분 기반 조합적 모델을 적용함으로써, 훈련 중에 가려진 데이터가 없더라도 비가려진 이미지에서는 높은 정확도를 유지하면서 가림에 대한 강건성을 크게 향상시킨다.
Deep convolutional neural networks (DCNNs) are powerful models that yield impressive results at object classification. However, recent work has shown that they do not generalize well to partially occluded objects and to mask attacks. In contrast to DCNNs, compositional models are robust to partial occlusion, however, they are not as discriminative as deep models. In this work, we combine DCNNs and compositional object models to retain the best of both approaches: a discriminative model that is robust to partial occlusion and mask attacks. Our model is learned in two steps. First, a standard DCNN is trained for image classification. Subsequently, we cluster the DCNN features into dictionaries. We show that the dictionary components resemble object part detectors and learn the spatial distribution of parts for each object class. We propose mixtures of compositional models to account for large changes in the spatial activation patterns (e.g. due to changes in the 3D pose of an object). At runtime, an image is first classified by the DCNN in a feedforward manner. The prediction uncertainty is used to detect partially occluded objects, which in turn are classified by the compositional model. Our experimental results demonstrate that combining compositional models and DCNNs resolves a fundamental problem of current deep learning approaches to computer vision: The combined model recognizes occluded objects, even when it has not been exposed to occluded objects during training, while at the same time maintaining high discriminative performance for non-occluded objects.
연구 동기 및 목표
- 부분적으로 가려진 객체와 적대적 마스크 공격에 대해 딥 컨volution 신경망(DCNNs)의 일반화 능력 부족 문제를 해결하기 위해.
- DCNN의 분류 능력과 조합적 모델의 가림에 대한 강건성을 결합하기 위해.
- 훈련 중에 이러한 예시를 본 적이 없더라도 가려진 객체의 정확한 분류를 가능하게 하기 위해.
- 3D 자세 변화에 따른 객체 부분 활성화의 공간적 변동을 혼합 조합 모델을 사용해 모델링하기 위해.
- DCNN의 예측 불확실성을 이용해 추론 시 가림을 탐지하고, 강건한 분류를 위해 조합적 모델로 전환하기 위해.
제안 방법
- 표준 DCNN을 먼저 이미지 분류를 위해 훈련하여 특징 맵을 생성한다.
- 훈련된 DCNN의 특징을 군집화하여 사전를 생성하며, 여기서 구성 요소는 객체 부분 검출기와 유사하다.
- 각 객체 클래스에 대한 부분의 공간 분포를 군집화된 특징에서 학습한다.
- 3D 자세 변화로 인한 공간적 활성화 패턴의 큰 변동을 다루기 위해 조합 구성 요소의 혼합 모델을 사용한다.
- 추론 시 DCNN은 피드포워드 분류를 수행하며, 예측 불확실성이 가려진 경우를 식별한다.
- 가려진 객체는 부분 검출기와 공간 사전 지식을 활용하는 조합적 모델을 사용해 재분류한다.
실험 결과
연구 질문
- RQ1DCNN과 조합적 모델을 융합한 하이브리드 모델이 훈련 중에 가려진 예시가 없더라도 부분적 가림에 대한 강건성을 향상시킬 수 있는가?
- RQ2DCNN의 예측 불확실성은 추론 시 가려진 객체를 어떻게 탐지할 수 있는가?
- RQ3학습된 부분 검출기와 공간 사전 지식을 갖춘 조합적 모델이 알려지지 않은 가림 패턴으로까지 일반화할 수 있는 정도는 어느 정도인가?
- RQ4조합 구성 요소의 혼합 모델은 3D 자세 변화로 인한 부분 활성화의 큰 공간적 변동을 효과적으로 모델링할 수 있는가?
- RQ5통합 모델은 비가려진 이미지에서는 높은 분류 성능를 유지하면서도 가려진 경우의 강건성을 향상시킬 수 있는가?
주요 결과
- 통합 모델은 비가려진 이미지에서 높은 정확도를 달성하여 기본 DCNN의 분류 능력을 그대로 유지한다.
- 훈련 중에 가려진 예시가 없더라도 모델이 가려진 객체를 성공적으로 분류한다.
- 예측 불확실성의 활용은 가려진 인스턴스를 신뢰성 있게 탐지하고, 재분류를 위해 조합적 모델을 활성화할 수 있게 한다.
- 학습된 부분 검출기와 공간 사전 지식을 갖춘 조합적 모델은 마스크 공격과 부분적 가림에 대해 강건성을 크게 향상시킨다.
- 조합 구성 요소의 혼합 모델은 다양한 3D 자세에서의 부분 활성화 공간 변동을 효과적으로 포착한다.
- 이 방법은 현재 컴퓨터 비전 분야의 딥 러닝 모델이 가지는 근본적 한계인 가림 상황에서의 일반화 능력 부족 문제를 해결한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.