QUICK REVIEW

[논문 리뷰] Defense Methods Against Adversarial Examples for Recurrent Neural Networks

Ishai Rosenberg, Asaf Shabtai|arXiv (Cornell University)|2019. 01. 28.

Adversarial Robustness in Machine Learning참고 문헌 43인용 수 40

한 줄 요약

본 논문은 sequence squeezing과 네 가지 추가 RNN 방어 기법을 도입하여 적대적 시퀀스를 완화하고, 사이버 보안 API-call 기반 악성코드 분류기에 대해 평가하여 공격 성공률을 크게 감소시키는 것을 달성했다.

ABSTRACT

Adversarial examples are known to mislead deep learning models to incorrectly classify them, even in domains where such models achieve state-of-the-art performance. Until recently, research on both attack and defense methods focused on image recognition, primarily using convolutional neural networks (CNNs). In recent years, adversarial example generation methods for recurrent neural networks (RNNs) have been published, demonstrating that RNN classifiers are also vulnerable to such attacks. In this paper, we present a novel defense method, termed sequence squeezing, to make RNN classifiers more robust against such attacks. Our method differs from previous defense methods which were designed only for non-sequence based models. We also implement four additional RNN defense methods inspired by recently published CNN defense methods. We evaluate our methods against state-of-the-art attacks in the cyber security domain where real adversaries (malware developers) exist, but our methods can be applied against other discrete sequence based adversarial attacks, e.g., in the NLP domain. Using our methods we were able to decrease the effectiveness of such attack from 99.9% to 15%.

연구 동기 및 목표

사이버 보안 및 이산 시퀀스 영역에서 RNN에 대한 적대적 예제에 대한 방어 필요성을 제시한다.
분류기를 재학습시키지 않고 적대적 공간을 줄이기 위한 sequence squeezing를 제안한다.
CNN에서 영감을 얻은 네 가지 방어를 RNN에 맞게 적용: sequence-GAN, nearest neighbor, RNN ensemble, 그리고 adversarial signatures를 도입한다.
최신 공격과 대적 훈련(adversarial training)을 기준으로 방어 방법을 비교한다.

제안 방법

시퀀스 스퀴징(sequence squeezing)을 API 호출/단어를 GloVe 임베딩으로 임베딩하고, 더 작은 squeezed 어휘로 클러스터링한 뒤 구성원들을 질량의 가장 가까운 중심으로 대체하여 적대적 공간을 축소하되 분류기 입력의 의미를 유지한다.
클래스별로 트레이닝된 sequence GANs를 사용하여 무해한 시퀀스와 악성 시퀀스를 생성하고 입력과 가장 가까운 시퀀스를 선택하여 분류하는 defense sequence-GAN을 구현한다.
입력 시퀀스에 가장 가까운 학습 샘플로 분류하여 섀도 perturbation에 저항하는 nearest neighbor 방어를 적용한다.
정규 모델, 배깅, 적대적 모델, subsequence 모델 등을 포함하는 RNN 앙상블을 구성하여 앙상블 투표 및 다양한 입력 분할을 통해 perturbation을 탐지한다.
적대적 특징 패턴(d adversarial signatures)을 탐지하고 대비책으로 adversarial training을 대조 기준으로 도입한다.
적대적 공격과 공격 비의존적(attac-agnostic) 스킴에 대해 평가하고, 적응 공격의 가능성과 사이버 보안 맥락에서의 실용성에 대해 논의한다.

실험 결과

연구 질문

RQ1sequence squeezing이 모델 재학습 없이 이산 시퀀스에 대한 RNN 분류기의 적대적 공간을 축소할 수 있는가?
RQ2sequence-GAN, nearest neighbor, RNN ensemble 및 기타 적응이 API-call 기반 RNN 악성코드 분류기의 적대적 시퀀스에 대한 견고성을 향상시키는가?
RQ3이 방어 방법들이 사이버 보안 시나리오에서의 효과성과 실용성 측면에서 adversarial training과 어떻게 비교되는가?
RQ4화이트박스와 블랙박스 공격 설정 모두에서, 적응 공격을 포함하여 방어 방법들이 효과적인가?

주요 결과

Sequence squeezing은 평가된 공격에서 적대적 효과를 99.9%에서 15%로 감소시켰다.
방법들은 재학습 없이도 적대적 시퀀스의 성공률을 집합적으로 감소시킨다.
Sequence-GAN 및 nearest-neighbor 접근법은 이산 시퀀스 입력에 적합한 강건하고 공격에 구애받지 않는 방어를 제공한다.
RNN ensemble 및 subsequence 기반 모델은 모델 간 및 입력 구간에 걸쳐 위험을 분산시켜 복원력을 향상시킨다.
본 논문은 적대자가 존재하고 완벽한 탐지가 항상 가능하지 않은 사이버 보안 맥락에서 방어 방법이 실용적일 수 있다고 주장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.