QUICK REVIEW

[논문 리뷰] Text Processing Like Humans Do: Visually Attacking and Shielding NLP Systems

Steffen Eger, Gözde Gül Şahin|arXiv (Cornell University)|2019. 03. 27.

Adversarial Robustness in Machine Learning인용 수 49

한 줄 요약

논문은 VIPER라는 시각 텍스트 교란기를 소개하고, 시각적 문자 교란이 여러 태스크에서 NLP 모델의 성능을 크게 저하시킨다는 것을 보여주며, 강건성을 개선하기 위한 차폐 방법을 평가한다. 인간은 이러한 교란에 거의 영향을 받지 않는 것으로 남아 있으며, 인간과 기계의 텍스트 처리 간의 차이점을 부각한다.

ABSTRACT

Visual modifications to text are often used to obfuscate offensive comments in social media (e.g., "!d10t") or as a writing style ("1337" in "leet speak"), among other scenarios. We consider this as a new type of adversarial attack in NLP, a setting to which humans are very robust, as our experiments with both simple and more difficult visual input perturbations demonstrate. We then investigate the impact of visual adversarial attacks on current NLP systems on character-, word-, and sentence-level tasks, showing that both neural and non-neural models are, in contrast to humans, extremely sensitive to such attacks, suffering performance decreases of up to 82\%. We then explore three shielding methods---visual character embeddings, adversarial training, and rule-based recovery---which substantially improve the robustness of the models. However, the shielding methods still fall behind performances achieved in non-attack scenarios, which demonstrates the difficulty of dealing with visual attacks.

연구 동기 및 목표

시각적 교란을 현실적인 NLP 위협 모델로서 동기 부여하고 형식화한다.
다양한 태스크(문자-, 단어-, 문장 수준)에서 최첨단 NLP 모델에 대한 시각적 공격의 영향을 평가한다.
시각적 교란에 대한 강건성을 향상시키기 위한 차폐 기법을 탐구한다.
시각적 교란 하에서 인간의 지각적 강건성과 기계의 취약성의 차이를 비교한다.

제안 방법

시각 임베딩 공간에서 문자를 시각적으로 유사한 이웃으로 대체하는 시각 교란기 VIPER를 도입한다.
시각적 이웃과 교란 근거를 제공하기 위해 세 가지 문자 임베딩 공간(ICES, DCES, ECES)을 정의한다.
SELMo(표준 ELMo)와 VELMo(시각적으로 정보를 활용한 ELMo)를 확장하여 시각 정보의 통합을 연구한다.
교란된 텍스트의 재복원을 측정하기 위한 인간 주석 실험을 수행한다.
시각적 교란 및 차폐 방법 하에서 NLP 태스크(G2P, 품사 태깅, 청크링, 유해의견 분류)를 평가한다.
적대적 훈련, 시각 임베딩, 규칙 기반 회복을 통한 차폐를 분석하고 깨끗한 기준선과 비교한다.

실험 결과

연구 질문

RQ1문자-, 단어-, 문장 수준에서 시각적 교란이 최첨단 NLP 모델에 어떤 영향을 미치는가?
RQ2인간은 시각적으로 교란된 텍스트에 강건한가, 교란의 유형이 재복원성에 어떻게 영향을 미치는가?
RQ3차폐 방법(적대적 학습, 시각 임베딩, 규칙 기반 회복)이 시각적 공격에 대한 강건성을 향상시키는가?
RQ4공격받은 모델과 인간 사이의 상대적 성능 격차는 어떠하며, 도메인 시프트가 차폐 효과에 어떤 영향을 미치는가?

주요 결과

NLP 모델은 VIPER 공격 하에서 성능이 크게 떨어지며 일부 태스크에서 82%까지 감소한다.
인간은 시각적 교란에 의해 부분적으로 영향받거나 전혀 영향을 받지 않으며, 기계에 비해 강한 강건성을 보인다.
적대적 학습과 시각 문자 임베딩은 강건성을 크게 향상시키며, AT가 CE의 이익을 종종 확대하고, AT+CE의 조합이 단독보다 더 나은 성능을 보인다.
규칙 기반 회복은 특정 설정에서 강력한 보호를 제공하지만, 높은 교란 강도에서 순수하게 깨끗한 데이터 수준으로 회복시키지는 못한다.
G2P, 품사 태깅, 청크링은 시각적 교란의 영향으로 유해의견 분류보다 더 큰 타격을 받으며, 문자 수준 태스크가 가장 큰 영향을 받는다.
DCES 교란이 ECES보다 더 도전적인 현실적 공격을 제시하며, 차폐 효과는 태스크와 교란 유형에 따라 다르게 나타난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.