QUICK REVIEW

[논문 리뷰] Noise or Signal: The Role of Image Backgrounds in Object Recognition

Kai Xiao, Logan Engstrom|arXiv (Cornell University)|2020. 06. 17.

Domain Adaptation and Few-Shot Learning참고 문헌 27인용 수 59

한 줄 요약

이 논문은 최첨단 객체 분류기가 이미지 배경에 얼마나 의존하는지 분석하고, 전경/배경 신호를 구분하기 위한 합성 데이터셋 도구를 도입하며 배경이 예측 및 강건성에 강하게 영향을 미칠 수 있음을 보여준다.

ABSTRACT

We assess the tendency of state-of-the-art object recognition models to depend on signals from image backgrounds. We create a toolkit for disentangling foreground and background signal on ImageNet images, and find that (a) models can achieve non-trivial accuracy by relying on the background alone, (b) models often misclassify images even in the presence of correctly classified foregrounds--up to 87.5% of the time with adversarially chosen backgrounds, and (c) more accurate models tend to depend on backgrounds less. Our analysis of backgrounds brings us closer to understanding which correlations machine learning models use, and how they determine models' out of distribution performance.

연구 동기 및 목표

배경 신호가 ImageNet과 유사한 데이터에서 객체 인식 정확도에 기여하는 정도를 평가한다.
이미지에서 전경과 배경 정보를 구분하는 데이터셋 도구를 개발한다.
모델의 배경 신호 의존성과 배경 변화에 대한 강건성을 정량화한다.
새로운 아키텍처와 학습 방식으로 모델의 정확도와 배경 의존성이 어떻게 진화했는지 조사한다.

제안 방법

전경/배경 분할이 있는 9개 클래스의 거칠게 구분된 하위집합인 ImageNet-9(IN-9)을 만든다.
전경과 배경 신호를 분리하기 위해 IN-9의 8가지 변형을 생성한다(예: Only-BG, No-FG, Mixed-Same, Mixed-Rand, Mixed-Next).
IN-9L 및 IN-9 변형에서 여러 아키텍처(예: ResNet-50, Wide-ResNet-50x2, MobileNet-v3, EfficientNet)를 학습하고 평가한다.
BG-Gap를 Mixed-Same과 Mixed-Rand 간의 정확도 하락으로 정의하여 배경 의존성을 측정한다.
적대적 배경을 검토하고 전경 클래스별 적대적 성공률을 계산한다.
배경 신호 의존성을 줄이기 위해 Mixed-Rand에서 모델을 학습시키고 강건성을 평가한다.

실험 결과

연구 질문

RQ1현대 모델에서 이미지 배경이 올바른 분류에 충분한 정도는 어느 정도인가?
RQ2IN-9 변형 전반에 걸쳐 전경 및 배경 신호가 모델 예측에 어떻게 기여하는가?
RQ3더 정확한 모델이 배경 신호를 더 의존하는가 아니면 덜 의존하는가, 그리고 학습 방식이 배경 의존성을 줄일 수 있는가?
RQ4적대적으로 선택된 배경에 대해 모델은 얼마나 취약한가, 그리고 배경에 강건한 학습이 이를 완화할 수 있는가?
RQ5ImageNet 사전 학습과 IN-9L 학습에서 배경 의존성은 어떻게 진화해 왔는가?

주요 결과

배경만으로도 배경-전용 데이터셋에서 임의 추측을 훨씬 뛰어넘는 의미 있는 분류 정확도를 가능하게 한다.
적대적이거나 전경에 맞지 않는 배경일 때 배경 신호가 오분류를 야기하는 중요한 BG-갭이 존재한다.
Original 데이터셋으로 학습되었을 때 올바른 분류를 위해 배경 정보가 필요한 이미지의 비율은 약 35%에 이른다.
더 정확한 모델은 배경 상관관계를 덜 이용하거나 배경 변화에 더 강건해지는 경향이 있지만 배경 신호는 남아 있고, 사전 학습된 ImageNet 모델은 배경 의존성이 감소한다.
Mixed-Rand에서 학습하면 배경에 대한 의존성이 감소하고 전경 중심이 되지만, 때때로 Original 데이터에서 전체 정확도가 감소한다.
적대적 배경은 전경 예시의 최대 87.5%를 속일 수 있어 OOD 상황에서 취약성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.