[논문 리뷰] Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet
BagNets는 작은 패치에서의 선형 로컬-피처의 Bag-of-Features를 사용해 이미지를 분류하며, 강력한 ImageNet 정확도를 달성하고 각 이미지 영역의 클래스에 대한 증거를 보여주는 패치-레벨 히트맵을 통해 해석 가능성을 간단하게 제공한다.
Deep Neural Networks (DNNs) excel on many complex perceptual tasks but it has proven notoriously difficult to understand how they reach their decisions. We here introduce a high-performance DNN architecture on ImageNet whose decisions are considerably easier to explain. Our model, a simple variant of the ResNet-50 architecture called BagNet, classifies an image based on the occurrences of small local image features without taking into account their spatial ordering. This strategy is closely related to the bag-of-feature (BoF) models popular before the onset of deep learning and reaches a surprisingly high accuracy on ImageNet (87.6% top-5 for 33 x 33 px features and Alexnet performance for 17 x 17 px features). The constraint on local features makes it straight-forward to analyse how exactly each part of the image influences the classification. Furthermore, the BagNets behave similar to state-of-the art deep neural networks such as VGG-16, ResNet-152 or DenseNet-169 in terms of feature sensitivity, error distribution and interactions between image parts. This suggests that the improvements of DNNs over previous bag-of-feature classifiers in the last few years is mostly achieved by better fine-tuning rather than by qualitatively different decision strategies.
연구 동기 및 목표
- ImageNet에서의 해석 가능한 DNN 필요성을 복잡한 공간적 계층 의존도 감소로 동기 부여한다.
- 작은 이미지 패치 위에 구축된 선형 로컬-피처의 BagNet를 소개한다.
- 작은 패치와 선형 집계를 사용해도 높은 정확도가 달성될 수 있음을 시연한다.
- 지역 패치가 의사결정에 미치는 영향을 보여주는 해석 가능한 증거 맵을 제공한다.
제안 방법
- 대부분의 3x3 컨볼루션을 1x1 컨볼루션으로 대체해 최상층 수용영역을 q x q 픽셀로 제한하는 BagNet-q를 구성한다.
- q x q 크기의 패치 특징을 추출하고 선형 분류기를 적용해 패치별 클래스 증거(로짓)를 얻는다.
- 공간에 걸쳐 패치 수준의 증거를 평균화해 이미지 수준 로짓을 생성한다.
- BagNet를 ImageNet에서 q가 {9, 17, 33}일 때 학습하고 표준 CNN과 비교한다.
- 히트맵과 패치 수준의 증거를 분석해 의사결정을 해석하고 DNN의 동작과 비교한다.
실험 결과
연구 질문
- RQ1선형 로컬-피처의 Bag-of-Features 모델이 작은 패치를 사용해 ImageNet에서 경쟁력 있는 정확도를 달성할 수 있는가?
- RQ2패치 수준의 증거 히트맵을 통해 이러한 모델의 의사결정은 얼마나 해석 가능한가?
- RQ3표준 DNN은 BagNets에 비해 지역 특징과 공간 관계에 어느 정도 의존하는가?
- RQ4BagNets와 현대 DNN의 의사결정 과정은 특징 민감도와 이미지 부품 간 상호작용 측면에서 얼마나 유사한가?
주요 결과
- 17x17 패치로 80.5% 상위 5% 정확도; 33x33 패치로 87.6% 상위 5% 정확도를 ImageNet에서 달성한다.
- BagNets는 q가 {9,17,33}일 때 초당 약 155장의 이미지 처리 속도이며, ResNet-50은 약 570장의 이미지 속도이다.
- 히트맵은 특정 클래스의 주된 영향을 주는 작은 패치를 보여주며, 정보가 풍부한 영역은 종종 객체의 형태나 특이한 특징에 해당한다.
- BagNets는 이미지 부품 간의 약한 상호작용과 q 픽셀보다 큰 거리의 패치 간 공간 배열에 대한 불변성을 보인다.
- BagNets의 패치 수준 증거는 다른 DNN의 어트리뷰션 신호와 상관관계를 가지며, 더 깊은 네트는 비선형 상호작용이 강하고 작은 지역 마스크에 대한 민감도가 낮아진다.
- 컴퓨터 비전 파이프라인에서의 해석 가능성과 실패 분석에 대한 가이드를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.