QUICK REVIEW

[논문 리뷰] Robust Physical-World Attacks on Machine Learning Models.

Ivan Evtimov, Kevin Eykholt|arXiv (Cornell University)|2017. 07. 27.

Adversarial Robustness in Machine Learning참고 문헌 10인용 수 197

한 줄 요약

이 논문은 실제 세계에서 탐지되는 것을 피하기 위해 파손 또는 예술적 요소를 모방하는 공간적으로 제약된 적대적 편향을 생성하는 새로운 공격 알고리즘인 Robust Physical Perturbations (RP2)를 소개한다. RP2는 다양한 물리적 조건에서 실제 도로 표지판 인식 시스템을 100% 성공적으로 속이는 데 성공했으며, 정지 표지판이 속도 제한 표지판으로 잘못 분류되고, 오른쪽 전환 표지판이 정지 또는 추가 차선 표지판으로 잘못 분류되는 경우가 발생했다.

ABSTRACT

Deep neural network-based classifiers are known to be vulnerable to adversarial examples that can fool them into misclassifying their input through the addition of small-magnitude perturbations. However, recent studies have demonstrated that such adversarial examples are not very effective in the physical world--they either completely fail to cause misclassification or only work in restricted cases where a relatively complex image is perturbed and printed on paper. In this paper we propose a new attack algorithm--Robust Physical Perturbations (RP2)-- that generates perturbations by taking images under different conditions into account. Our algorithm can create spatially-constrained perturbations that mimic vandalism or art to reduce the likelihood of detection by a casual observer. We show that adversarial examples generated by RP2 achieve high success rates under various conditions for real road sign recognition by using an evaluation methodology that captures physical world conditions. We physically realized and evaluated two attacks, one that causes a Stop sign to be misclassified as a Speed Limit sign in 100% of the testing conditions, and one that causes a Right Turn sign to be misclassified as either a Stop or Added Lane sign in 100% of the testing conditions.

연구 동기 및 목표

환경의 변동성으로 인해 기존의 적대적 예제가 실제 환경에서 효과를 발휘하지 못하는 문제를 해결하기 위해.
시점 변화, 조도, 인쇄 오류 등의 실제 이미지 변형에 강건한 적대적 편향을 생성하기 위한 방법을 개발하기 위해.
파손이나 예술적 수정을 모방함으로써 빌드업된 시각적 힌트를 최소화하여 관찰자에 의한 탐지 위험을 줄이기 위해.
다양한 카메라 각도와 환경 요인를 포함한 실제 물리 세계 조건에서 적대적 예제의 강건성을 평가하기 위해.
특히 도로 표지판 인식과 같은 안전이 중요한 애플리케이션에서 배포된 기계 학습 모델에 대한 신뢰할 수 있는 물리 세계 공격의 가능성을 입증하기 위해.

제안 방법

RP2는 편향 생성 과정에서 회전, 스케일링, 블러와 같은 다양한 물리 세계 이미지 변형을 통합한 최적화 문제로 적대적 공격를 수립한다.
다양한 카메라 시점과 조명 조건에서 실제적인 이미지 왜곡을 시뮬레이션하기 위해 유연한 렌더링 파이프라인을 사용한다.
실제 파손이나 예술적 수정을 모방함으로써 편향에 공간적 제약을 도입하여 변화를 국소화함으로써 도청성(stealthiness)을 향상시킨다.
다양한 물리적 조건에서 높은 속임수 성공률을 확보하기 위해 실제 세계의 변동성에 강건한 방식으로 최적화한다.
다양한 카메라 각도와 환경 설정에서 테스트하는 다중 시점 평가 전략을 사용하여 실제 세계 배포를 시뮬레이션한다.
일반화 능력을 향상시키기 위해 적대적 훈련과 유사한 정규화 기법을 통합한다.

실험 결과

연구 질문

RQ1시점 변화, 조도 변화, 인쇄 오류와 같은 실제 세계의 물리적 변형에 강건한 적대적 편향을 만들 수 있는가?
RQ2파손이나 예술적 수정을 모방하는 적대적 예제는 인간의 탐지 위험을 줄이며 높은 속임수 성공률을 유지할 수 있는가?
RQ3단일 적대적 편향이 실제 도로 표지판에 대해 다양한 물리적 조건과 카메라 각도에서 일관된 오분류를 이끌 수 있는가?
RQ4다양하고 현실적인 환경 조건에서 평가했을 때, 배포된 기계 학습 모델에 대한 물리 세계 공격의 성공률은 얼마인가?
RQ5적대적 예제를 얼마나 강건하게 만들 수 있으며, 실제 세계 배포 환경에서 도청성과 효과성을 동시에 확보할 수 있는가?

주요 결과

RP2 공격는 모든 테스트된 물리 조건에서 정지 표지판을 속도 제한 표지판으로 잘못 분류하는 데 100%의 성공률를 기록했다.
오른쪽 전환 표지판에 대한 공격는 테스트 조건의 100%에서 정지 또는 추가 차선 표지판으로 잘못 분류하는 데 성공했다.
RP2가 생성한 편향은 자연스러운 파손이나 예술적 수정과 시각적으로 구분되지 않아 관찰자에 의한 탐지 위험을 크게 감소시켰다.
시점 변화, 조도 변화, 이미지 블러와 같은 다양한 물리적 변형에서도 높은 강건성을 보였다.
평가 방법론은 실제 세계의 변동성을 효과적으로 반영했으며, RP2가 이전의 물리 세계 공격보다 신뢰성과 일반화 능력에서 뛰어남을 확인했다.
공격의 물리적 실현을 통해 인쇄된 예제가 실제 세계 조건에서 시각화되더라도 여전히 효과가 유지됨을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.