Skip to main content
QUICK REVIEW

[논문 리뷰] On Adversarial Examples for Character-Level Neural Machine Translation

Javid Ebrahimi, Daniel Lowd|arXiv (Cornell University)|2018. 06. 23.
Adversarial Robustness in Machine Learning참고 문헌 20인용 수 157
한 줄 요약

이 논문은 문자 수준 NMT에 대한 화이트박스 그라디언트 기반 적대적 공격을 도입하고, 무타깃, 제어된, 그리고 타깃 설정에서 블랙박스 공격보다 더 강력하다는 것을 보여주며, 적대적 학습이 강인성을 개선한다는 것을 입증한다.

ABSTRACT

Evaluating on adversarial examples has become a standard procedure to measure robustness of deep learning models. Due to the difficulty of creating white-box adversarial examples for discrete text input, most analyses of the robustness of NLP models have been done through black-box adversarial examples. We investigate adversarial examples for character-level neural machine translation (NMT), and contrast black-box adversaries with a novel white-box adversary, which employs differentiable string-edit operations to rank adversarial changes. We propose two novel types of attacks which aim to remove or change a word in a translation, rather than simply break the NMT. We demonstrate that white-box adversarial examples are significantly stronger than their black-box counterparts in different attack scenarios, which show more serious vulnerabilities than previously known. In addition, after performing adversarial training, which takes only 3 times longer than regular training, we can improve the model's robustness significantly.

연구 동기 및 목표

  • 문자 수준 NMT에서 최악의 경우 실패에 대한 연구를 동기화한다.
  • 모델 그래디언트를 활용하기 위해 미분 가능한 텍스트 편집 연산을 사용한 화이트박스 적대적 공격을 개발한다.
  • BLEU 점수 감소 그 이상으로 번역을 조작하기 위한 제어된(Controlled) 및 타깃된(Targeted) 공격 유형을 제안한다.
  • 적대적 학습이 비교적 적은 학습 오버헤드로 모델의 강인성을 크게 향상시킬 수 있음을 입증한다.

제안 방법

  • 문자 수준 입력에 대해 더 넓은 범위의 텍스트 편집(flip, swap, delete, insert)에 HotFlip 그라디언트 기반 프레임워크를 확장한다.
  • 텍스트 편집을 입력 공간 벡터로 표현하고 1차 도함수를 사용하여 loss J(x, y)에 대한 영향에 따라 후보 변경을 순위화한다.
  • 일회성 탐욕적/빔 탐색 전략을 적용하여 적대적 예제를 효율적으로 생성한다.
  • 특정 단어를 제거하도록 표적화된 제어 공격과 다른 단어로 교체하는 표적 공격을 고유의 손실 목표를 사용하여 정의한다.
  • 일회성 적대적 학습을 도입해 강인성 훈련을 가속하고 표준 훈련 대비 약 3배의 속도 저하를 달성한다.
  • 문자 수준 NMT 아키텍처(char convs, highway nets, RNN decoders)와 BLEU로 평가하는 TED talks parallel corpus(German/Czech/French to English)를 활용한다.

실험 결과

연구 질문

  • RQ1문자 수준 NMT에서 화이트박스 적대적 공격이 무타깃, 제어된, 타깃 설정에서 블랙박스 공격과 어떻게 비교되는가?
  • RQ2그라디언트 기반 편집이 번역에서 특정 단어를 효과적으로 제거하거나 교체하되 나머지 출력에 과도한 변화를 일으키지 않는가?
  • RQ3화이트박스 적대자와 함께하는 적대적 학습이 화이트박스와 블랙박스 교란 모두에 대한 강인성을 향상시키는가?
  • RQ4실제 예산 제약(예: 변경된 문자 비율) 하에서 적대적 예제를 생성하기 위한 효율적 전략은 무엇인가?

주요 결과

  • 화이트박스 적대자는 제어된 및 타깃된 시나리오에서 특히 블랙박스 공격자보다 상당히 우수하다.
  • 제어된 공격은 타깃 단어에 대한 손실을 최대화해 특정 단어를 무력화하고 때로는 UNK로 대체함으로써 블랙박스 방법보다 더 높은 성공률을 보인다.
  • 타깃 공격(두 번째로 많이 대체되는 단어 등) 은 성공률이 더 낮지만 화이트박스 방법이 블랙박스보다 여전히 현저히 강력하다.
  • 화이트박스 예제로의 적대적 학습은 적대적 입력에 대한 BLEU 강인성을 향상시키며, 앙상블 방식은 다양한 노이즈 유형에 걸친 폭넓은 보호를 제공한다.
  • 일회성 공격 전략은 최소한의 훈련 지연으로도 경쟁력 있는 강인성 향상을 가능하게 한다(약 3배).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.