QUICK REVIEW

[논문 리뷰] Towards Crafting Text Adversarial Samples

Suranjana Samanta, Sameep Mehta|arXiv (Cornell University)|2017. 07. 10.

Adversarial Robustness in Machine Learning참고 문헌 9인용 수 165

한 줄 요약

논문은 단어 수준의 탐욕적(그리디) 방법으로 의미적으로 유사한 적대적 텍스트 샘플을 만들기 위해 단어를 대체, 삽입 또는 제거하는 방법을 제안하고, IMDB 감정 분석 및 Twitter 성별 데이터셋에서 평가하며 TextFool과 비교한다.

ABSTRACT

Adversarial samples are strategically modified samples, which are crafted with the purpose of fooling a classifier at hand. An attacker introduces specially crafted adversarial samples to a deployed classifier, which are being mis-classified by the classifier. However, the samples are perceived to be drawn from entirely different classes and thus it becomes hard to detect the adversarial samples. Most of the prior works have been focused on synthesizing adversarial samples in the image domain. In this paper, we propose a new method of crafting adversarial text samples by modification of the original samples. Modifications of the original text samples are done by deleting or replacing the important or salient words in the text or by introducing new words in the text sample. Our algorithm works best for the datasets which have sub-categories within each of the classes of examples. While crafting adversarial samples, one of the key constraint is to generate meaningful sentences which can at pass off as legitimate from language (English) viewpoint. Experimental results on IMDB movie review dataset for sentiment analysis and Twitter dataset for gender detection show the efficiency of our proposed method.

연구 동기 및 목표

적대적 텍스트 샘플의 필요성 동기를 제시하고 의미 및 문법을 유지하는 데 따른 도전 과제를 다룬다.
클래시파이어의 의사 결정을 뒤집기 위한 그리디 단어 수준 수정 방법(대체, 삽입, 제거)을 제안한다.
장르 하위 범주와 키워드 세트를 활용하여 적대적 샘플 생성을 개선한다.
TextFool과 비교하여 IMDB 감정 및 Twitter 성별 데이터세트에서 방법을 평가한다.
적대적 샘플로 재학습을 통해 강건성을 입증한다.

제안 방법

분류기 손실 기울기(FGSM에서 영감을 받은)를 사용하여 클래스 확률에 대한 단어별 기여도를 계산한다.
기여도에 따라 단어의 순위를 매기고 가장 영향력 큰 단어를 반복적으로 수정한다.
동의어, 오타, 그리고 장르별 키워드를 포함하는 교체 후보 풀이를 구축한다.
문법을 보존하면서 적대적 샘플을 만들기 위해 세 가지 수정 유형(부사 제거, 형용사 앞에 부사 삽입, 또는 대체)을 적용한다.
장르별 키워드를 사용하여 적대적 샘플의 품질과 수를 향상시킨다.
적대적 샘플로 분류기를 재학습하여 강건성을 평가한다.

실험 결과

연구 질문

RQ1텍스트 도메인에서 최소한의 의미 보존 편집으로 텍스트 적대적 샘플을 만들 수 있는가?
RQ2대체, 삽입, 제거 연산이 감정 분류 또는 성별 분류를 뒤집는 데 얼마나 효과적인가?
RQ3장르별 키워드의 도입이 적대적 샘플의 품질과 양을 개선하는가?
RQ4텍스트 기반 적대적 공격에 대한 모델 강건성에 대한 적대적 학습의 영향은 무엇인가?

주요 결과

제안된 방법은 IMDB 감정 및 Twitter 성별 작업 모두에 대해 의미적으로 올바른 적대적 텍스트 샘플을 합성할 수 있다.
장르별 키워드를 포함하면 성공적인 적대적 샘플 수가 증가하고 의미적 유사성은 다소 감소한다.
장르 키워드 없이 생성된 적대적 샘플은 장르 인식 접근법에 비해 변조 수가 더 작고 의미 충실도가 더 낮다.
적대적 샘플로 CNN을 재학습하면 원래 테스트 세트와 적대적 테스트 세트 간의 정확도 차이가 좁혀져 강건성이 향상됨을 시사한다.
TextFool과 비교할 때 제안된 방법이 더 많은 적대적 샘플을 생성하고 설정에 따라 더 높은 교란 비율을 보이는 경우가 많다.
원문과 적대적 텍스트 간의 의미적 유사성은 보고된 사례에서 여전히 높게 유지되며(약 0.92–0.99 범위).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.