QUICK REVIEW

[논문 리뷰] Black-box Generation of Adversarial Text Sequences to Evade Deep Learning Classifiers

Ji Gao, Jack Lanchantin|arXiv (Cornell University)|2018. 01. 13.

Adversarial Robustness in Machine Learning참고 문헌 23인용 수 57

한 줄 요약

논문은 DeepWordBug를 제시한다. 이는 토큰 중요도를 점수화하고 문자 수준 변환을 적용하여 딥 러닝 분류기가 잘못 분류하도록 하는 작은, 인지하기 어려운 텍스트扰 perturbations를 생성하는 블랙박스 방법이다.

ABSTRACT

Although various techniques have been proposed to generate adversarial samples for white-box attacks on text, little attention has been paid to black-box attacks, which are more realistic scenarios. In this paper, we present a novel algorithm, DeepWordBug, to effectively generate small text perturbations in a black-box setting that forces a deep-learning classifier to misclassify a text input. We employ novel scoring strategies to identify the critical tokens that, if modified, cause the classifier to make an incorrect prediction. Simple character-level transformations are applied to the highest-ranked tokens in order to minimize the edit distance of the perturbation, yet change the original classification. We evaluated DeepWordBug on eight real-world text datasets, including text classification, sentiment analysis, and spam detection. We compare the result of DeepWordBug with two baselines: Random (Black-box) and Gradient (White-box). Our experimental results indicate that DeepWordBug reduces the prediction accuracy of current state-of-the-art deep-learning models, including a decrease of 68\% on average for a Word-LSTM model and 48\% on average for a Char-CNN model.

연구 동기 및 목표

모델 매개변수나 그래디언트가 필요하지 않은 NLP 분류기에 대한 블랙박스 적대적 공격을 시연한다.
모델 비의존적 점수 함수를 사용하여 분류 결정에 중요한 토큰을 식별한다.
해당 토큰에 대해 작고 눈에 띄지 않는 문자 수준扰 perturbations를 적용하여 오분류를 유도한다.
다양한 데이터셋과 모델 아키텍처(Word-LSTM 및 Char-CNN)에서 공격 효과를 평가한다.
adversarial 샘플의 모델 간 전이성 및 매개변수 선택에 대한 강건성을 평가한다.

제안 방법

모델 매개변수 없이 토큰 중요도를 평가하기 위한 네 가지 토큰 스코어링 함수(Replace-1, Temporal Head, Temporal Tail, Combined)를 정의한다.
토큰을 사전 정의되지 않은 토큰으로 바꾸었을 때의 모델 출력이나 연속 예측 차이를 통해 중요도 순위를 매긴다.
상위 m개 토큰을 선택하고 간단하고 작고 문자 수준의 변형(교환, 치환, 삭제, 삽입)을 사용해 적대적 샘플을 생성한다.
변형 제약으로 Levenshtein 편집 거리를 사용해 변화가 인지적으로 작게 느껴지도록 한다.
공격 알고리즘 DeepWordBug는 입력 길이에 비례한 O(n) 쿼리에서 작동한다.

실험 결과

연구 질문

RQ1그래디언트나 모델 내부 없이도 블랙박스 적대적 공격이 NLP 모델의 정확도를 크게 감소시킬 수 있는가?
RQ2한 모델용으로 생성된 적대적 샘플이 같은 작업에서 다른 모델로 효과적으로 전이되는가?
RQ3다른 사전 크기와 변형 선택에 대해 DeepWordBug의 점수화 및 변형 전략은 얼마나 강건한가?
RQ4다양한 텍스트 데이터셋 및 아키텍처(단어 수준 LSTM 및 문자 수준 CNN)에서 DeepWordBug의 효과성은 어떠한가?

주요 결과

DeepWordBug는 여덟 개 데이터셋에서 정확도를 큰 폭으로 감소시키며,perturbation 예산 ϵ = 30 하에서 Word-LSTM의 평균 감소율은 68%, Char-CNN은 평균 48% 감소를 달성한다.
Combined 점수화와 Substitution 변환기가 Word-LSTM의 AG’s News 및 Amazon Review Polarity 정확도를 극적으로 낮춘다(예: AG의 News에서 약 90%에서 약 25%로 하락).
Replace-1 점수화를 Substitution 변환기와 함께 사용할 때 Char-CNN에 대해 매우 효과적이다(예: Amazon Review Polarity에서 약 90%에서 약 46%로 감소).
공격 샘플은 모델 간에 잘 전이되어, 대체 아키텍처 및 임베딩에서 정확도가 약 90%에서 20–50%로 낮아진다.
랜덤 점수화는 성능이 좋지 않으며, 그래디언트 기반의 백박스(화이트박스) 기준선이 제안된 점수화 함수에 의해 능가되며, 모델 비 의존적 토큰 중요성의 가치를 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.