[논문 리뷰] Do Adversarially Robust ImageNet Models Transfer Better?
적대적으로 강건한 ImageNet 모델은 ImageNet 정확도가 더 낮은 편임에도 불구하고, 고정 특징(fixed-feature) 및 전체 네트워크 전이 설정에서 객체 탐지 및 분할을 포함한 여러 하류 태스크에서 표준 모델보다 더 잘 전이되는 경우가 많다.
Transfer learning is a widely-used paradigm in deep learning, where models pre-trained on standard datasets can be efficiently adapted to downstream tasks. Typically, better pre-trained models yield better transfer results, suggesting that initial accuracy is a key aspect of transfer learning performance. In this work, we identify another such aspect: we find that adversarially robust models, while less accurate, often perform better than their standard-trained counterparts when used for transfer learning. Specifically, we focus on adversarially robust ImageNet classifiers, and show that they yield improved accuracy on a standard suite of downstream classification tasks. Further analysis uncovers more differences between robust and standard models in the context of transfer learning. Our results are consistent with (and in fact, add to) recent hypotheses stating that robustness leads to improved feature representations. Our code and models are available at https://github.com/Microsoft/robust-models-transfer .
연구 동기 및 목표
- 적대적 강건성이 전이 학습에 유익한 선행 지식(사전)으로 작용하는지 조사한다.
- 여러 하류 태스크에 걸쳐 고정 특징 전이와 전체 네트워크 전이 성능을 강건한 모델과 표준 ImageNet 모델 간에 비교한다.
- 전이 성능에 미치는 영향에서 강건성, 모델 폭, 정확도 및 데이터의 세분성 간의 상호 작용을 분석한다.
- 전이 설정에서 텍스처 기반 불변성(예: Stylized ImageNet)과의 비교에서 강건성의 역할을 탐구한다.
- ImageNet 정확도, 강건성 및 하류 전이 성능 간의 관계를 살펴본다.
제안 방법
- 여러 아키텍처(ResNet-18, ResNet-50, WideResNet-50 변형)에서 다양한 강건도 수준(epsilon)을 갖는 다수의 ImageNet 모델을 학습한다.
- 사전 학습된 모델의 특징에서 선형 분류기를 학습시켜 12개 하류 분류 데이터셋에서 고정 특징 전이를 평가한다.
- 동일한 하류 작업에서 사전 학습된 모델을 미세조정하여 전체 네트워크 전이를 수행한다.
- 견고한 백본을 사용하는 Detectron2를 이용해 객체 탐지 및 인스턴스 분할에 대한 평가를 확장한다.
- 선정 편향을 피하기 위해 서로 다른 시드(seed)로 epsilon(강건도 수준) 및 아키텍처를 포함한 하이퍼파라미터를 격자 탐색한다.
실험 결과
연구 질문
- RQ1고정 특징 전이 설정에서 적대적으로 강건한 ImageNet 모델이 표준 모델에 비해 우수한 전이 성능을 제공하는가?
- RQ2강건한 모델의 전이 우위가 전체 네트워크 미세조정, 객체 탐지, 인스턴스 분할까지 확장되는가?
- RQ3강건도 수준, 모델 폭, 하류 작업의 세분성이 전이 성능에 어떤 영향을 미치는가?
- RQ4전이 촉진에서 텍스처 기반 불변성( Stylized ImageNet )과의 비교에서 강건성은 어떻게 작용하는가?
- RQ5ImageNet 정확도, 강건성 및 하류 전이 성능 간의 관계는 무엇인가?
주요 결과
- 강건한 모델은 12개 하류 태스크에 걸친 고정 특징 전이에서 표준 모델과 동등하거나 더 나은 전이 성능을 일관되게 보인다.
- 전체 네트워크 전이에서도 같은 태스크에서 강건한 모델이 표준 모델과 동등하거나 우수하며, 강건성의 이점은 객체 탐지 및 인스턴스 분할에도 확장된다.
- 모델 폭을 늘리는 것이 강건한 모델에 표준 모델보다 더 큰 도움을 주어, 더 넓은 강건 네트워크가 더 큰 전이 이득을 낼 수 있음을 시사한다.
- 강건성을 고려하면 전통적인 선형 정확도-전이 관계가 유지되지 않으며, 강건성과 정확도는 전이에 대해 서로 다른 상충하는 효과를 가진다.
- 최적의 강건도 수준은 데이터셋에 따라 다르며, 더 작은 epsilon은 더 세분된 데이터셋에 자주 선호되고, CIFAR-10/100과 같은 거친 세분화 작업에는 더 큰 epsilon이 이익을 준다.
- 강건한 모델은 전이 작업에서 텍스처 강건(Stylized ImageNet) 기반의 대조군을 능가하여 표현에 대한 견고성이 가치 있는 선행 정보임을 뒷받침한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.