QUICK REVIEW

[논문 리뷰] HotFlip: White-Box Adversarial Examples for Text Classification

Javid Ebrahimi, Anyi Rao|arXiv (Cornell University)|2017. 12. 19.

Adversarial Robustness in Machine Learning참고 문헌 21인용 수 81

한 줄 요약

이 논문은 한 토큰 플립으로 문자 수준 적대적 텍스트를 생성하는 gradient 기반의 화이트박스 방법인 HotFlip을 제시하여 텍스트 분류기의 견고성을 향상시키는 효율적인 적대적 학습을 가능하게 합니다.

ABSTRACT

We propose an efficient method to generate white-box adversarial examples to trick a character-level neural classifier. We find that only a few manipulations are needed to greatly decrease the accuracy. Our method relies on an atomic flip operation, which swaps one token for another, based on the gradients of the one-hot input vectors. Due to efficiency of our method, we can perform adversarial training which makes the model more robust to attacks at test time. With the use of a few semantics-preserving constraints, we demonstrate that HotFlip can be adapted to attack a word-level classifier as well.

연구 동기 및 목표

문자 수준 NLP 모델의 화이트박스 적대자들을 이용한 취약성 조사를 동기화합니다.
원-핫 입력 표현을 통해 이산 텍스트를 조작하는 효율적인 gradient 기반 방법을 제시합니다.
HotFlip으로의 적대적 학습이 견고성을 향상시키고 의미를 보존하는 제약 하에 단어 수준 분류기에 확장될 수 있음을 보여줍니다.

제안 방법

손실의 방향 미분에 기초하여 한 문자 하나를 다른 문자로 치환하는 원자적 플립 연산을 정의합니다.
최적의 단일 변경을 (dJ/dx^(b) − dJ/dx^(a))의 최대값으로 근사하기 위해 1차(그라디언트) 근사를 사용합니다.
Greedy/beam search를 사용하여 변경의 시퀀스로 확장하고, r번의 변경과 빔 너비 b에 대해 순전파와 역전파를 각각 O(br) 비용으로 수행합니다.
플립의 크기가 다르므로 L2 노름으로 변화 벡터를 정규화하여 크기의 차이를 보정합니다.
효율성을 위해 주로 적대적 학습에서 플립을 사용하도록 삽입 및 삭제를 플립의 시퀀스로 적응시킵니다.
필요시 의미 보존 제約 하에 의미를 보존하는 단어 수준 모델에 대한 적용 가능성을 입증합니다.

실험 결과

연구 질문

RQ1차별적으로 미분 가능한 문자 수준 텍스트 분류기가 표적화된 그래디언트 기반 교란에 얼마나 취약한가요?
RQ2빠르고 화이트박스인 적대자가 작은 편집으로도 현실적인 적대적 텍스트를 만들고 높은 오분류 비율을 생산할 수 있나요?
RQ3HotFlip으로 생성된 예제를 사용한 적대적 학습이 공격에 대한 견고성을 향상시키고 깨끗한 데이터에서의 정확도를 유지하나요?
RQ4HotFlip을 의미를 보존하는 제약 하에서 단어 수준 모델에 맞게 적용할 수 있나요?

주요 결과

Methods	Misc. error	Success rate
Baseline	8.27%	98.16%
Adv-tr Miyato et al. (2017)	8.03%	87.43%
Adv-tr (black-box)	8.60%	95.63%
Adv-tr (white-box)	7.65%	69.32%

화이트박스 적대자들은 문자 예산(예: 문자 중 10%) 내에서 소수의 편집으로 높은 오분류를 달성합니다.
HotFlip을 이용한 빔 검색은 테스트 세트의 10%에 대해 주어진 신뢰 제약에서 90%가 넘는 인스턴스에 대해 분류기를 속일 수 있습니다.
HotFlip으로의 적대적 학습은 오분류 오류를 줄이고 적대자 성공률을 임베딩 노이즈 적대적 학습이나 블랙박스 공격보다 더 효과적으로 낮춥니다.
목표 신뢰도 0.5를 겨냥했을 때 평균 적대적 플립 비율은 문자 중 4.18%였습니다.
실제 HotFlip 예제로의 적대적 학습은 가짜 적대적 임베딩 섭 perturbations(Miyato et al. 2017)으로 학습하는 것보다 더 나은 견고성을 보입니다.
휴먼 평가에 따르면 HotFlip 적대적 편집이 문장 의미를 거의 바꾸지 않으며 평균 인간 정확도 감소도 미미합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.