QUICK REVIEW

[논문 리뷰] Imperceptible Adversarial Attacks on Tabular Data

Vincent Ballet, Xavier Xavier|arXiv (Cornell University)|2019. 11. 08.

Adversarial Robustness in Machine Learning참고 문헌 12인용 수 50

한 줄 요약

이 논문은 표 형 데이터에 대한 무감지(adversarial) 공격을 정의하고, 덜 중요한 특징에 대한 perturbation을 perceptually 최소화하면서 높은 속임수 비율을 달성하는 gradient 기반 방법 LowProFool을 소개합니다.

ABSTRACT

Security of machine learning models is a concern as they may face adversarial attacks for unwarranted advantageous decisions. While research on the topic has mainly been focusing on the image domain, numerous industrial applications, in particular in finance, rely on standard tabular data. In this paper, we discuss the notion of adversarial examples in the tabular domain. We propose a formalization based on the imperceptibility of attacks in the tabular domain leading to an approach to generate imperceptible adversarial examples. Experiments show that we can generate imperceptible adversarial examples with a high fooling rate.

연구 동기 및 목표

표 형 데이터 도메인에서 적대적 예제를 동기 부여하고 형식화한다.
표 형 적대 Perturbation에 대한 인지 가능성(perceptibility)와 일관성(coherence)을 정의한다.
클래시파이어의 출력을 변화시키면서 인지 가능성을 최소화하는 gradient 기반 공격(LowProFool)을 제안한다.
재무 관련 표 형 데이터셋에서 공격을 평가하고 베이스라인과 비교한다.

제안 방법

가중 perturbation d_v(r) = ||v ⊙ r||_p^2 로 표현된 표 형 데이터에 대해 특징 중요도 v를 사용하여 무감지성을 형식화한다.
최적화 목적 g(r) = L(x + r, t) + λ ||v ⊙ r||_p 를 정의하여 오분류와 인지 가능성 사이의 균형을 맞춘다.
제 coherence 제약(A)와 특징 클리핑 아래에서 g(r)를 최소화하는 gradient-Descent 알고리즘으로 LowProFool을 개발한다.
화이트박스 설정에서 gradient 기반 업데이트와 특징 클리핑을 사용하여 교란된 샘플이 실제 데이터 경계와 일관되도록 유지한다.
타깃 변수와의 절대 Pearson 상관관계로부터 특징 중요도 v를 모델링하고 단위 길이로 정규화한다.
네 가지 데이터셋(German Credit, Australian Credit, Default Credit Card, Lending Club Loan)에서 신경망 분류기로 평가한다.

실험 결과

연구 질문

RQ1표 형 데이터에서 적대적 Perturbation의 인지 가능성(perceptibility)을 정의하고 측정하는 방법은 무엇인가?
RQ2도메인 전문가에게 인지적으로 감지되지 않으면서 속임 수를 얻기 위해 덜 중요한 특징을 이용한 공격이 가능한가?
RQ3표 형 데이터에 적용될 때 이미지 도메인의 기존 베이스라인(FGSM, DeepFool)과 비교하여 LowProFool은 어떤 차이를 보이는가?
RQ4표 형 도메인에서 속임 수율과 perturbation의 인지 가능성 간의 트레이드오프는 무엇인가?

주요 결과

Dataset	Method	SR	Mean	WMean	MD_O	WMD_O
German C.	LowProFool	0.94	0.344 ± 0.282	0.039 ± 0.027	0.49 ± 0.193	0.091 ± 0.039
German C.	DeepFool	1.00	0.21 ± 0.181	0.076 ± 0.077	0.485 ± 0.193	0.089 ± 0.038
German C.	FGSM	0.192	19.69 ± 75.61	5.683 ± 21.827	0.477 ± 0.173	0.085 ± 0.037
Default C.	LowProFool	0.856	0.061 ± 0.109	0.002 ± 0.005	0.199 ± 0.137	0.034 ± 0.031
Default C.	DeepFool	0.996	0.023 ± 0.026	0.005 ± 0.007	0.198 ± 0.132	0.036 ± 0.032
Default C.	FGSM	0.588	1.122 ± 4.127	0.245 ± 0.901	0.207 ± 0.154	0.035 ± 0.032
Australian	LowProFool	0.968	0.710 ± 0.530	0.210 ± 0.141	0.374 ± 0.188	0.055 ± 0.027
Australian	DeepFool	1.000	0.50 ± 0.349	0.263 ± 0.183	0.375 ± 0.189	0.055 ± 0.027
Australian	FGSM	0	–	–	–	–
Lending L.	LowProFool	0.944	0.124 ± 0.168	0.014 ± 0.027	0.659 ± 0.207	0.062 ± 0.027
Lending L.	DeepFool	0.996	0.107 ± 0.154	0.024 ± 0.035	0.66 ± 0.209	0.062 ± 0.028
Lending L.	FGSM	0	–	–	–	–

LowProFool은 네 가지 데이터셋에서 높은 속임 수를 달성한다(SR이 Australian Credit에서 최대 0.968, Lending Club에서 0.944 등).
Mean perturbation 및 가중 perturbation 노름은 perceptible baseline 대비 현저히 작으면서도 DeepFool 대비 경쟁력 있거나 우수한 속임 수를 유지한다.
가중 perturbation 노름(d_v(r))은 FGSM보다 더 무감지에 가까운 교란을 생성하는 경향이 있으며 DeepFool보다 raw 노름에서 더 덜 감지되지만 가중 가중치에서 더 나은 인지감을 제공한다.
평균적으로 LowProFool의 교란은 원본 샘플에 매우 가깝고, 가중 perturbation은 이웃 샘플까지의 거리의 작은 비율을 차지한다(예: Default Credit Card의 경우 5.9%).
tabular 데이터에서 FGSM은 성능이 저조하고, DeepFool은 더 높은 속임 수를 달성하지만 가중 지표에서 더 큰 인지 가능성을 보인다.
classifier가 학습한 특징 중요도와 전문가의 직관 간의 불일치를 시사하며( v ), 덜 중요한 특징을 통해 무감지 공격이 가능함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.