QUICK REVIEW

[논문 리뷰] On Adversarial Examples for Character-Level Neural Machine Translation

Javid Ebrahimi, Daniel Lowd|arXiv (Cornell University)|2018. 06. 23.

Adversarial Robustness in Machine Learning참고 문헌 20인용 수 157

한 줄 요약

이 논문은 문자 수준 NMT에 대한 화이트박스 그라디언트 기반 적대적 공격을 도입하고, 무타깃, 제어된, 그리고 타깃 설정에서 블랙박스 공격보다 더 강력하다는 것을 보여주며, 적대적 학습이 강인성을 개선한다는 것을 입증한다.

ABSTRACT

Evaluating on adversarial examples has become a standard procedure to measure robustness of deep learning models. Due to the difficulty of creating white-box adversarial examples for discrete text input, most analyses of the robustness of NLP models have been done through black-box adversarial examples. We investigate adversarial examples for character-level neural machine translation (NMT), and contrast black-box adversaries with a novel white-box adversary, which employs differentiable string-edit operations to rank adversarial changes. We propose two novel types of attacks which aim to remove or change a word in a translation, rather than simply break the NMT. We demonstrate that white-box adversarial examples are significantly stronger than their black-box counterparts in different attack scenarios, which show more serious vulnerabilities than previously known. In addition, after performing adversarial training, which takes only 3 times longer than regular training, we can improve the model's robustness significantly.

연구 동기 및 목표

문자 수준 NMT에서 최악의 경우 실패에 대한 연구를 동기화한다.
모델 그래디언트를 활용하기 위해 미분 가능한 텍스트 편집 연산을 사용한 화이트박스 적대적 공격을 개발한다.
BLEU 점수 감소 그 이상으로 번역을 조작하기 위한 제어된(Controlled) 및 타깃된(Targeted) 공격 유형을 제안한다.
적대적 학습이 비교적 적은 학습 오버헤드로 모델의 강인성을 크게 향상시킬 수 있음을 입증한다.

제안 방법

문자 수준 입력에 대해 더 넓은 범위의 텍스트 편집(flip, swap, delete, insert)에 HotFlip 그라디언트 기반 프레임워크를 확장한다.
텍스트 편집을 입력 공간 벡터로 표현하고 1차 도함수를 사용하여 loss J(x, y)에 대한 영향에 따라 후보 변경을 순위화한다.
일회성 탐욕적/빔 탐색 전략을 적용하여 적대적 예제를 효율적으로 생성한다.
특정 단어를 제거하도록 표적화된 제어 공격과 다른 단어로 교체하는 표적 공격을 고유의 손실 목표를 사용하여 정의한다.
일회성 적대적 학습을 도입해 강인성 훈련을 가속하고 표준 훈련 대비 약 3배의 속도 저하를 달성한다.
문자 수준 NMT 아키텍처(char convs, highway nets, RNN decoders)와 BLEU로 평가하는 TED talks parallel corpus(German/Czech/French to English)를 활용한다.

실험 결과

연구 질문

RQ1문자 수준 NMT에서 화이트박스 적대적 공격이 무타깃, 제어된, 타깃 설정에서 블랙박스 공격과 어떻게 비교되는가?
RQ2그라디언트 기반 편집이 번역에서 특정 단어를 효과적으로 제거하거나 교체하되 나머지 출력에 과도한 변화를 일으키지 않는가?
RQ3화이트박스 적대자와 함께하는 적대적 학습이 화이트박스와 블랙박스 교란 모두에 대한 강인성을 향상시키는가?
RQ4실제 예산 제약(예: 변경된 문자 비율) 하에서 적대적 예제를 생성하기 위한 효율적 전략은 무엇인가?

주요 결과

화이트박스 적대자는 제어된 및 타깃된 시나리오에서 특히 블랙박스 공격자보다 상당히 우수하다.
제어된 공격은 타깃 단어에 대한 손실을 최대화해 특정 단어를 무력화하고 때로는 UNK로 대체함으로써 블랙박스 방법보다 더 높은 성공률을 보인다.
타깃 공격(두 번째로 많이 대체되는 단어 등) 은 성공률이 더 낮지만 화이트박스 방법이 블랙박스보다 여전히 현저히 강력하다.
화이트박스 예제로의 적대적 학습은 적대적 입력에 대한 BLEU 강인성을 향상시키며, 앙상블 방식은 다양한 노이즈 유형에 걸친 폭넓은 보호를 제공한다.
일회성 공격 전략은 최소한의 훈련 지연으로도 경쟁력 있는 강인성 향상을 가능하게 한다(약 3배).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.