Skip to main content
QUICK REVIEW

[논문 리뷰] Revisiting Sparse Convolutional Model for Visual Recognition

Xili Dai, Mingyang Li|arXiv (Cornell University)|2022. 10. 24.
Adversarial Robustness in Machine Learning인용 수 21
한 줄 요약

이 논문은 컨볼루션 희소 코딩(CSC) 레이어를 표준 컨볼루션의 드롭인 대체로 임베딩하여 Sparse Dictionary Learning Networks(SDNets)을 형성하고, 해석 가능성과 잡음 및 적대적 섭동에 대한 강건성을 추가한 채 경쟁력 있는 정확도를 달성합니다.

ABSTRACT

Despite strong empirical performance for image classification, deep neural networks are often regarded as ``black boxes'' and they are difficult to interpret. On the other hand, sparse convolutional models, which assume that a signal can be expressed by a linear combination of a few elements from a convolutional dictionary, are powerful tools for analyzing natural images with good theoretical interpretability and biological plausibility. However, such principled models have not demonstrated competitive performance when compared with empirically designed deep networks. This paper revisits the sparse convolutional modeling for image classification and bridges the gap between good empirical performance (of deep learning) and good interpretability (of sparse convolutional models). Our method uses differentiable optimization layers that are defined from convolutional sparse coding as drop-in replacements of standard convolutional layers in conventional deep neural networks. We show that such models have equally strong empirical performance on CIFAR-10, CIFAR-100, and ImageNet datasets when compared to conventional neural networks. By leveraging stable recovery property of sparse modeling, we further show that such models can be much more robust to input corruptions as well as adversarial perturbations in testing through a simple proper trade-off between sparse regularization and data reconstruction terms. Source code can be found at https://github.com/Delay-Xili/SDNet.

연구 동기 및 목표

  • 희소 모델의 해석 가능성과 이미지 분류에서 심층 신경망의 강력한 경험적 성능을 연결하고 동기를 부여한다.
  • CNN 백본에서 표준 컨볼루션을 대체하는 미분 가능한 최적화 레이어로 CSC-레이어를 도입한다.
  • CIFAR-10, CIFAR-100, ImageNet에서 경쟁력 있는 정확도와 유지된 학습 효율성을 입증한다.
  • principled sparse modeling approach로 입력 변형에 대한 강건성 이점을 보인다.

제안 방법

  • CSC 계층 정의: FISTA를 통해 희소 코딩 objective를 해결하는 미분 가능한 암시적(implicit) 레이어로.
  • ResNet 기반 백본의 선택적 또는 모든 컨볼루션 레이어를 CSC-레이어로 대체하여 SDNet 아키텍처를 형성한다.
  • 교차 엔트로피 손실과 정규화된 사전집합 제약으로 엔드투엔드 학습; A를 정규화 집합에 적용하기 위한 Projection SGD 사용.
  • 테스트 시 노이즈 입력을 다루기 위해 희소성 매개변수 lambda를 조정하여 견고한 추론을 활용한다( CSC의 정리에서 얻은 안정성).
  • 전방 패스를 위한 FISTA의 두 반복을 언롤하여 역전파 및 실용적 학습 가능.
  • 실험 절차(Algorithm 1) 제시: 합성 변형으로부터 lambda 잔차 관계를 학습하여 테스트 시 lambda를 선택하는 견고한 추론 절차를 제공한다.

실험 결과

연구 질문

  • RQ1CSC-레이어가 CIFAR-10/100 및 ImageNet에서 표준 ConvNet에 비해 경쟁력 있는 이미지 분류 성능을 제공할 수 있는가?
  • RQ2SDNet은 CSC-레이어를 사용하여 데이터 증강이나 학습 변경 없이 입력 교란 및 적대적 교란에 대한 강건성을 향상시킬 수 있는가?
  • RQ3희소성 기반 모델링이 심층 신경망의 해석 가능성과 계층별 동작에 어떤 영향을 미치는가?
  • RQ4다양한 잡음 유형에 대해 테스트 시 희소성 매개변수 lambda를 간단히 조정하면 강건성이 향상되는가?
  • RQ5컨볼루션을 CSC-레이어로 대체할 때 계산 비용과 정확도 간의 트레이드오프는 어떤 모습인가?

주요 결과

DatasetArchitectureModel SizeTop-1 AccMemorySpeed
CIFAR-10ResNet-1811.2M95.54%1.0 GB1600 n/s
CIFAR-10ResNet-3421.1M95.57%2.0 GB1000 n/s
CIFAR-10MDEQ11.1M93.80%2.0 GB90 n/s
CIFAR-10SCN0.7M94.36%10.0 GB39 n/s
CIFAR-10SCN-1811.2M95.12%3.5 GB158 n/s
CIFAR-10SDNet-18 (ours)11.2M95.20%1.2 GB1500 n/s
CIFAR-10SDNet-34 (ours)21.1M95.57%2.4 GB900 n/s
CIFAR-100ResNet-1811.2M77.82%1.0 GB1600 n/s
CIFAR-100ResNet-3421.1M78.39%2.0 GB1000 n/s
CIFAR-100MDEQ11.2M74.12%2.0 GB90 n/s
CIFAR-100SCN0.7M80.07%10.0 GB39 n/s
CIFAR-100SCN-1811.2M78.59%3.5 GB158 n/s
CIFAR-100SDNet-18 (ours)11.3M78.31%1.2 GB1500 n/s
CIFAR-100SDNet-34 (ours)21.2M78.48%2.4 GB900 n/s
ImageNetResNet-1811.7M68.98%24.1 GB2100 n/s
ImageNetResNet-3421.5M72.83%32.3 GB1400 n/s
ImageNetSCN9.8M70.42%95.1 GB51 n/s
ImageNetSDNet-18 (ours)11.7M69.47%37.6 GB1800 n/s
ImageNetSDNet-34 (ours)21.5M72.67%46.4 GB1200 n/s
  • SDNet-18/SDNet-34는 비슷한 파라미터 예산에서 CIFAR-10/100 및 ImageNet에서 ResNet-18/34와 대등한 Top-1 정확도를 달성한다.
  • SDNet 모델은 손상된 입력에 대해 강건성을 보이며, 람다를 적응적으로 조정하면 고정 람다보다 CIFAR-10-C 및 ImageNet-C에서 정확도가 향상된다.
  • Algorithm 1이 이끄는 적응형 lambda는 고정된 학습 시 람다(0.1)에 비해 손상된 환경에서 상당한 이득을 제공한다.
  • MDEQ에 비해 SDNet-18은 CIFAR-10/ImageNet에서 정확도가 높으면서도 더 빠르며 7배 이상 빠르다; SCN은 경쟁력 있는 정확도를 보이나 학습 속도가 느리다.
  • SDNet은 lambda를 조정하면 적대적 강건성이 개선되어 PGD 공격 하에서 로버스트 정확도가 크게 향상된다.
  • CSC-레이어에서 FISTA 반복 횟수를 늘리면 자연 상태와 로버스트 정확도가 ImageNet 및 ImageNet-C에서 지속적으로 향상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.