[논문 리뷰] Seq2Sick: Evaluating the Robustness of Sequence-to-Sequence Models with Adversarial Examples
Seq2Sick은 시퀀스-투-시퀀스(seq2seq) 모델에 대한 최적화 기반 공격으로 대상 출력 또는 비중첩 출력 변화를 야기하는 적대적 입력을 생성하고, 투영 경사 방법들, 그룹 래소, 및 경사 정규화를 사용한다.
Crafting adversarial examples has become an important technique to evaluate the robustness of deep neural networks (DNNs). However, most existing works focus on attacking the image classification problem since its input space is continuous and output space is finite. In this paper, we study the much more challenging problem of crafting adversarial examples for sequence-to-sequence (seq2seq) models, whose inputs are discrete text strings and outputs have an almost infinite number of possibilities. To address the challenges caused by the discrete input space, we propose a projected gradient method combined with group lasso and gradient regularization. To handle the almost infinite output space, we design some novel loss functions to conduct non-overlapping attack and targeted keyword attack. We apply our algorithm to machine translation and text summarization tasks, and verify the effectiveness of the proposed algorithm: by changing less than 3 words, we can make seq2seq model to produce desired outputs with high success rates. On the other hand, we recognize that, compared with the well-evaluated CNN-based classifiers, seq2seq models are intrinsically more robust to adversarial attacks.
연구 동기 및 목표
- 안전에 중요한 NLP 작업에서 seq2seq 모델의 강건성 평가를 촉진한다.
- 이산 입력 제약 하에서 적대적 입력을 생성하기 위한 최적화 프레임워크를 개발한다.
- 대상화된 출력 공격과 비중첩 출력 공격으로 크고 거의 무한한 출력 공간을 다룬다.
- 이산 입력을 다루고 희소하며 의미 있는 교란을 촉진하기 위한 기법을 제안한다.
- seq2seq 강건성이 CNN 기반 이미지 분류기와 어떻게 비교되는지 평가한다.
제안 방법
- R(delta)가 group lasso 페널티일 때, L(X+delta) + lambda R(delta)로 적대적 공격을 min_delta로 형식화한다.
- 입력 어휘 공간 내에 교란을 유지하기 위해 gradient regularization을 적용한 projected gradient descent를 사용한다.
- 출력 단어가 매 위치에서 원래 단어와 다르도록 강제하기 위해 L_non-overlapping 비중첩 공격 손실을 설계한다.
- 출력에 대상 키워드가 나타나도록 하려면 L_keywords 타깃 키워드 공격 손실을 설계하고, 키워드 충돌을 피하기 위한 마스크를 둔다.
- X+delta ∈ W (입력 어휘)로의 투영을 통해 X+delta가 W에 속하도록 강제하고, 입력 단어의 부분 집합만 perturb하도록 그룹드 희소성(grouped sparsity)을 적용한다.
- 임베딩 공간에의 근접성을 촉진하고 실행 가능한 단어 매핑을 가능하게 하도록 gradient regularization 항을 포함한다.
실험 결과
연구 질문
- RQ1작고 희소한 입력 변화로도 seq2seq 모델에 의미 있는 공격이 가능하여 큰 출력 변화를 유발할 수 있는가?
- RQ2seq2seq 모델은 CNN 기반 이미지 분류기에 비해 적대적 조작에 더 강건한가?
- RQ3seq2seq 모델에 대한 적대적 공격에서 이산 입력 제약과 거의 무한한 출력 공간을 어떻게 효과적으로 다룰 수 있는가?
- RQ4대상 키워드 공격이 번역 및 요약 출력에 미치는 영향은 무엇인가?
주요 결과
- Seq2Sick은 1–3 어절 변화로 비중첩 공격과 대상 키워드 공격에서 높은 성공률을 달성한다.
- 비중첩 공격 성공률: 텍스트 요약 Gigaword 86.0%, DUC2003 85.2%, DUC2004 84.2%이며 BLEU 점수는 약 0.77–0.83이다.
- 대상 키워드 공격은 1개의 키워드일 때 높은 성공률을 보이고 키워드가 증가할수록 낮아진다(예: Gigaword 1-keyword 99.8% 성공, BLEU 0.801; 3-keyword 43.0%).
- 기계 번역 비중첩 성공 89.4%; 1-keyword 100.0%; 2-keyword 91.0%; 3-keyword 69.6%로, 키워드가 증가할수록 BLEU가 감소한다.
- 적대적 예제는 대부분의 경우 의미를 보존한다(감성 테스트: 2.2% 의미 변화).
- Seq2seq 모델은 이산 입력과 기하급수적으로 큰 출력 공간으로 인해 CNN 분류기에 비해 내재적 강건성을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.