[논문 리뷰] Unrestricted Adversarial Examples
이 논문은 무제한적 적대적 입력에 대한 강인성을 평가하기 위해 진행 중인 2인 대전을 제안하며, 모호하지 않은 'bird-or-bicycle' 데이터셋을 사용하고, 수비자는 확신 있는 실수를 피해야 하며 공격자는 열린 방어를 악용한다.
We introduce a two-player contest for evaluating the safety and robustness of machine learning systems, with a large prize pool. Unlike most prior work in ML robustness, which studies norm-constrained adversaries, we shift our focus to unconstrained adversaries. Defenders submit machine learning models, and try to achieve high accuracy and coverage on non-adversarial data while making no confident mistakes on adversarial inputs. Attackers try to subvert defenses by finding arbitrary unambiguous inputs where the model assigns an incorrect label with high confidence. We propose a simple unambiguous dataset ("bird-or- bicycle") to use as part of this contest. We hope this contest will help to more comprehensively evaluate the worst-case adversarial risk of machine learning models.
연구 동기 및 목표
- 노름으로 제약된 적대자들을 넘어서는 강인성 연구를 자극한다.
- 지상 진실 평가를 위한 모호하지 않은 bird-or-bicycle 데이터셋을 도입한다.
- 수비자는 기권하거나 모호하지 않은 입력을 올바르게 라벨링하고 공격자는 확신 있는 잘못 분류를 노리는 두 선수 대회를 설계한다.
- 현실적 위협 모델에서 방어를 평가하고 비교하기 위한 오픈 소스 메커니즘을 제공한다.
- 예열 및 지속적 도전 라운드를 통해 반복 가능하고 재현 가능한 발전을 촉진한다.
제안 방법
- 여러 사람 작업자에 의해 결정된 실제 ground truth를 가진 OpenImages의 두 클래스인 모호하지 않은 bird-or-bicycle 데이터셋을 구성한다.
- 수비자 모델이 bird, bicycle 또는 abstain을 출력하도록 허용하고, 모호하지 않은 입력에서 확신 있는 실수가 없도록 한다.
- 어떠한 입력 수정도 사용할 수 있는 무제한의 화이트박스 공격을 허용하고, 사람에 의해 검증된 ground truth로 평가한다.
- 사소한 기권을 방지하기 위해 비공개 적격성 세트에서 80% 정확도 요건을 가진 기권 메커니즘을 부과한다.
- 주간 공격 제출, 인간 검증 및 고정된 무패 기간(예: 90일) 이후 수비자 상 평가가 진행되는 지속적인 대회를 운영한다.
- 예열 단계에서 특정 공격에 방어가 과적합되는 것을 방지하기 위해 고정된 공격을 테스트한다.
실험 결과
연구 질문
- RQ1수비자는 adversarial 입력에 대해 선택적으로 기권하면서도 모호하지 않은 bird-or-bicycle 이미지에서 확신 있는 실점을 제로로 달성할 수 있는가?
- RQ2무제한의 화이트박스 공격 개방성이 노름 제약 공격과 비교하여 방어 강인성에 어떤 영향을 미치는가?
- RQ3지속적이고 오픈 소스인 방어 제안이 시간이 지남에 따라 반복되는 공격 시도에 견딜 수 있는가?
- RQ4청정 데이터에서의 성능을 희생하지 않으면서 안정적인 기권을 가능하게 하는 실용적인 메커니즘은 무엇인가?
주요 결과
- 저자는 실제 세계의 강인성 문제를 더 잘 반영하기 위해 무제한 공격이 가능한 지속적이고 완전한 화이트박스 대회를 제안한다.
- 모호하지 않은 bird-or-bicycle 데이터셋은 작업자 간 합의를 통해 ground-truth의타당성을 보장하는 데 사용된다.
- 수비자는 기권할 수 있지만 사소한 기권을 방지하기 위해 비공개 적격성 세트에서 80% 정확도를 유지해야 한다.
- 공격은 상이 수여 전에 모호하지 않음을 보장하기 위해 인간 심사자에 의해 검증되어 공정한 평가를 촉진한다.
- 대회에는 고정된 공격을 사용한 예열이 포함되어 간단한 방어를 노출하고 무제한 라운드 전에 과적합을 방지한다.
- 오픈 소스 대회 메커니즘과 진화하는 방어/공격이 제공되어 커뮤니티 참여를 장려한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.