Skip to main content
QUICK REVIEW

[논문 리뷰] HotFlip: White-Box Adversarial Examples for Text Classification

Javid Ebrahimi, Anyi Rao|arXiv (Cornell University)|2017. 12. 19.
Adversarial Robustness in Machine Learning참고 문헌 21인용 수 81
한 줄 요약

이 논문은 한 토큰 플립으로 문자 수준 적대적 텍스트를 생성하는 gradient 기반의 화이트박스 방법인 HotFlip을 제시하여 텍스트 분류기의 견고성을 향상시키는 효율적인 적대적 학습을 가능하게 합니다.

ABSTRACT

We propose an efficient method to generate white-box adversarial examples to trick a character-level neural classifier. We find that only a few manipulations are needed to greatly decrease the accuracy. Our method relies on an atomic flip operation, which swaps one token for another, based on the gradients of the one-hot input vectors. Due to efficiency of our method, we can perform adversarial training which makes the model more robust to attacks at test time. With the use of a few semantics-preserving constraints, we demonstrate that HotFlip can be adapted to attack a word-level classifier as well.

연구 동기 및 목표

  • 문자 수준 NLP 모델의 화이트박스 적대자들을 이용한 취약성 조사를 동기화합니다.
  • 원-핫 입력 표현을 통해 이산 텍스트를 조작하는 효율적인 gradient 기반 방법을 제시합니다.
  • HotFlip으로의 적대적 학습이 견고성을 향상시키고 의미를 보존하는 제약 하에 단어 수준 분류기에 확장될 수 있음을 보여줍니다.

제안 방법

  • 손실의 방향 미분에 기초하여 한 문자 하나를 다른 문자로 치환하는 원자적 플립 연산을 정의합니다.
  • 최적의 단일 변경을 (dJ/dx^(b) − dJ/dx^(a))의 최대값으로 근사하기 위해 1차(그라디언트) 근사를 사용합니다.
  • Greedy/beam search를 사용하여 변경의 시퀀스로 확장하고, r번의 변경과 빔 너비 b에 대해 순전파와 역전파를 각각 O(br) 비용으로 수행합니다.
  • 플립의 크기가 다르므로 L2 노름으로 변화 벡터를 정규화하여 크기의 차이를 보정합니다.
  • 효율성을 위해 주로 적대적 학습에서 플립을 사용하도록 삽입 및 삭제를 플립의 시퀀스로 적응시킵니다.
  • 필요시 의미 보존 제約 하에 의미를 보존하는 단어 수준 모델에 대한 적용 가능성을 입증합니다.

실험 결과

연구 질문

  • RQ1차별적으로 미분 가능한 문자 수준 텍스트 분류기가 표적화된 그래디언트 기반 교란에 얼마나 취약한가요?
  • RQ2빠르고 화이트박스인 적대자가 작은 편집으로도 현실적인 적대적 텍스트를 만들고 높은 오분류 비율을 생산할 수 있나요?
  • RQ3HotFlip으로 생성된 예제를 사용한 적대적 학습이 공격에 대한 견고성을 향상시키고 깨끗한 데이터에서의 정확도를 유지하나요?
  • RQ4HotFlip을 의미를 보존하는 제약 하에서 단어 수준 모델에 맞게 적용할 수 있나요?

주요 결과

MethodsMisc. errorSuccess rate
Baseline8.27%98.16%
Adv-tr Miyato et al. (2017)8.03%87.43%
Adv-tr (black-box)8.60%95.63%
Adv-tr (white-box)7.65%69.32%
  • 화이트박스 적대자들은 문자 예산(예: 문자 중 10%) 내에서 소수의 편집으로 높은 오분류를 달성합니다.
  • HotFlip을 이용한 빔 검색은 테스트 세트의 10%에 대해 주어진 신뢰 제약에서 90%가 넘는 인스턴스에 대해 분류기를 속일 수 있습니다.
  • HotFlip으로의 적대적 학습은 오분류 오류를 줄이고 적대자 성공률을 임베딩 노이즈 적대적 학습이나 블랙박스 공격보다 더 효과적으로 낮춥니다.
  • 목표 신뢰도 0.5를 겨냥했을 때 평균 적대적 플립 비율은 문자 중 4.18%였습니다.
  • 실제 HotFlip 예제로의 적대적 학습은 가짜 적대적 임베딩 섭 perturbations(Miyato et al. 2017)으로 학습하는 것보다 더 나은 견고성을 보입니다.
  • 휴먼 평가에 따르면 HotFlip 적대적 편집이 문장 의미를 거의 바꾸지 않으며 평균 인간 정확도 감소도 미미합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.