QUICK REVIEW

[논문 리뷰] Characterizing Adversarial Examples Based on Spatial Consistency Information for Semantic Segmentation

Chaowei Xiao, Ruizhi Deng|arXiv (Cornell University)|2018. 10. 11.

Adversarial Robustness in Machine Learning참고 문헌 46인용 수 51

한 줄 요약

이 논문은 시맨틱 세그멘테이션에서 무작위 이미지 패치들 간의 공간적 일관성을 활용하여 적대적 예를 분석하고, 공간 맥락이 적응 공격자에 대해서도 적대적 입력을 강하게 탐지할 수 있음을 보여주며, 세그멘테이션 모델 간의 전이성은 낮은 것으로 나타난다.

ABSTRACT

Deep Neural Networks (DNNs) have been widely applied in various recognition tasks. However, recently DNNs have been shown to be vulnerable against adversarial examples, which can mislead DNNs to make arbitrary incorrect predictions. While adversarial examples are well studied in classification tasks, other learning problems may have different properties. For instance, semantic segmentation requires additional components such as dilated convolutions and multiscale processing. In this paper, we aim to characterize adversarial examples based on spatial context information in semantic segmentation. We observe that spatial consistency information can be potentially leveraged to detect adversarial examples robustly even when a strong adaptive attacker has access to the model and detection strategies. We also show that adversarial examples based on attacks considered within the paper barely transfer among models, even though transferability is common in classification. Our observations shed new light on developing adversarial attacks and defenses to better understand the vulnerabilities of DNNs.

연구 동기 및 목표

공간 컨텍스트 정보가 시맨틱 세그멘테이션의 적대적 예에 어떤 영향을 주는지 이해한다.
공간 일관성 분석을 제안하여 정상 출력과 적대적 세그멘테이션 출력을 구분한다.
적응적 및 블랙박스 시나리오에서 공간 일관성 탐지의 강건성을 평가한다.

제안 방법

중첩하는 이미지 패치를 샘플링하고 중첩 영역의 예측을 비교하는 공간 일관성 분석을 제안한다(평균 IoU로 측정).
다수의 공간 컨텍스트에서 픽셀당 자기 엔트로피를 정량화하여 예측 안정성을 시각화한다.
공간 일관성을 회전하는 스케일 기반 탐지와 비교하기 위해 이미지 가우시안 블러/스케일 변환을 baselines로 적용한다.
Cityscapes와 BDD100K에서 학습된 최첨단 세그멘테이션 모델(DRN과 DLA)에 대해 탐지 성능을 평가한다.
방어에 대한 지식을 가진 적응 공격에서 탐지의 강건성을 평가한다.

실험 결과

연구 질문

RQ1시맨틱 세그멘테이션에서 공간 컨텍스트 정보가 정상 입력과 적대적 입력의 차이를 드러낼 수 있는가?
RQ2공간 일관성 기반 탐지기가 방어 전략을 아는 적응 공격자에 대해 강건한가?
RQ3분류와 비교했을 때 세그멘테이션 모델 간의 적대적 예의 전이성은 어떻게 나타나는가?

주요 결과

정상 이미지와 적대적 이미지는 공간 일관성이 다르게 나타나며, 중첩 패치 예측에서 적대적 예는 평균 mIOU가 낮고 정상 예는 더 높은 mIOU를 보인다.
적대적 예를 탐지하는 공간 일관성 탐지기는 테스트된 공격과 모델에서 거의 완벽에 가까운 탐지 성능을 달성하며, 공격자가 방어를 알더라도(적응 공격) 효율적으로 작동한다.
스케일 기반 탐지는 적대적 입력을 정상 입력과 구분할 수 있지만, 공간 일관성 방법보다 적응 공격에 더 취약하다.
적대적 예는 한 모델에 대해 생성되면 다른 모델로의 전달이 낮아 분류 과제에 비해 전이성이 낮은 편이다.
패치를 무작위로 선택하는 방법(K를 크게 설정)으로 탐지 성능을 유지하고 적대자 탐색의 복잡성을 증가시켜 적응 공격을 저해한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.