QUICK REVIEW

[논문 리뷰] Adversarial attacks against Fact Extraction and VERification

James Thorne, Andreas Vlachos|arXiv (Cornell University)|2019. 03. 13.

Adversarial Robustness in Machine Learning참고 문헌 29인용 수 22

한 줄 요약

이 논문은 FEVER 데이터셋의 주장을 변형함으로써 사실 확인 시스템을 대상으로 규칙 기반 방법을 제안하며, 함의 관계를 유지하거나 변경함으로써 악성 예제를 생성한다. 이는 최신 기술 모델이 이러한 악성 예제에서 정확도가 최대 29.16% 하락함을 보여주며, 훈련 데이터 분포를 초월한 견고성과 일반화 능력에 대한 취약성을 드러낸다.

ABSTRACT

This paper describes a baseline for the second iteration of the Fact Extraction and VERification shared task (FEVER2.0) which explores the resilience of systems through adversarial evaluation. We present a collection of simple adversarial attacks against systems that participated in the first FEVER shared task. FEVER modeled the assessment of truthfulness of written claims as a joint information retrieval and natural language inference task using evidence from Wikipedia. A large number of participants made use of deep neural networks in their submissions to the shared task. The extent as to whether such models understand language has been the subject of a number of recent investigations and discussion in literature. In this paper, we present a simple method of generating entailment-preserving and entailment-altering perturbations of instances by common patterns within the training data. We find that a number of systems are greatly affected with absolute losses in classification accuracy of up to $29\%$ on the newly perturbed instances. Using these newly generated instances, we construct a sample submission for the FEVER2.0 shared task. Addressing these types of attacks will aid in building more robust fact-checking models, as well as suggest directions to expand the datasets.

연구 동기 및 목표

FEVER 데이터셋으로 훈련된 사실 확인 모델의 악성 변형에 대한 견고성 평가
간단한 규칙 기반 주장 변형이 모델의 취약성을 드러내는 효과적인 악성 예제를 생성할 수 있는지 조사
FEVER2.0 공동 과제의 '깨뜨리기' 단계를 위한 기준선 제공을 위해 악성 예제를 생성하고 평가
이러한 공격가 정보 검색 및 자연어 추론 컴포넌트에 미치는 영향 평가
향후 NLP 사실 확인 분야의 모델 견고성 및 악성 일반화 연구를 지원하기 위해 도구와 데이터 공개

제안 방법

FEVER 데이터셋의 주장을 규칙 기반 변형을 적용하여 함의 관계를 유지하거나 변경한 새로운 예제 생성
원본 주장과 동일한 증거를 사용하여 새로운 증거 검색이 필요 없도록 하여, 오직 주장 수준의 변형에 집중
증거와의 논리적 관계에 따라 변형된 주장을 세 가지 레이블로 분류: 지지됨, 반박됨, 정보 부족
악성 예제에 대해 시스템이 잘못 분류하는 비율을 계산하여 공격의 강도 측정
생성된 주장의 30%에 대해 수동 평가를 수행하여 문법적 정확성과 제출 지침 준수 여부 평가
층화 샘플링을 사용하여 FEVER2.0의 '깨뜨리기' 단계를 위한 균형 잡힌 1,000개의 악성 예제 제출 샘플 구성

실험 결과

연구 질문

RQ1규칙 기반 주장 변형이 최신 기술 사실 확인 모델의 성능에 얼마나 큰 영향을 미치는가?
RQ2함의 유지 변형과 함의 변경 변형의 유형이 모델의 견고성에 어떻게 영향을 미치는가?
RQ3사실 확인 파이프라인의 어떤 구성 요소(정보 검색 또는 NLI)가 이러한 악성 공격에 가장 취약한가?
RQ4동일한 악성 예제에 노출되었을 때 모델의 복원력은 시스템 간에 어떻게 다를까?
RQ5간단하고 저비용인 규칙 기반 방법이 문법적으로 정확하고 모델 성능 저하에 효과적인 악성 예제를 생성할 수 있는가?

주요 결과

규칙 기반 변형을 사용한 악성 공격로 인해 테스트된 모델들에서 최대 29.16%의 정확도 하락이 발생했으며, 손실 범위는 11.32%에서 29.16%까지 다양했다.
원래 FEVER 공동 과제에서 최고 성능을 냈던 모델(Papelo)이 악성 평가에서 가장 높은 복원력을 보였으며, 63.16%의 복원력 점수를 기록했다.
원래 과제에서 두 번째로 높은 순위를 기록한 UCL 시스템이 원래 첫 번째 순위를 기록한 UNC 시스템보다 악성 평가에서 더 높은 성능을 보였으며, 이는 데이터 사용 방식과 일반화 능력의 차이를 시사한다.
함의 유지 변형은 제출된 악성 주장의 약 60%를 차지했으며, 이러한 변형이 모델의 약점을 폭 드러내는 데 더 효과적이었다.
수동 평가 결과, 생성된 악성 주장의 90%가 문법적으로 정확하고 제출 지침을 준수했으며, 10%는 언어적 복잡성 또는 체계적 오류로 실패했다.
수동 필터링 후 조정된 공격 강도 점수는 56.32%였으며, 이는 공격의 효과성과 주장의 품질을 모두 반영한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.