Skip to main content
QUICK REVIEW

[논문 리뷰] Backdoor Defense, Learnability and Obfuscation

Paul F. Christiano, Jacob Hilton|arXiv (Cornell University)|2024. 09. 04.
Adversarial Robustness in Machine Learning인용 수 1
한 줄 요약

이 논문은 공격자가 무작위로 선택된 트리거에 대해 성공해야 하는 게임 이론적 프레임워크를 제안하여, 방어가 학습보다 엄밀히 쉬워질 수 있음을 보여준다. 이 프레임워크는 통계적 방어 가능성은 VC 차원에 의존하며, 계산적 방어 가능성은 PAC 학습 가능성과 분리됨을 입증한다. 이는 다항 크기의 결정 트리에서는 학습보다 더 빠르게 방어가 가능하지만, 암호학적 가정 하에 다항 크기의 회로는 효율적으로 방어할 수 없다는 것을 보여준다.

ABSTRACT

We introduce a formal notion of defendability against backdoors using a game between an attacker and a defender. In this game, the attacker modifies a function to behave differently on a particular input known as the "trigger", while behaving the same almost everywhere else. The defender then attempts to detect the trigger at evaluation time. If the defender succeeds with high enough probability, then the function class is said to be defendable. The key constraint on the attacker that makes defense possible is that the attacker's strategy must work for a randomly-chosen trigger. Our definition is simple and does not explicitly mention learning, yet we demonstrate that it is closely connected to learnability. In the computationally unbounded setting, we use a voting algorithm of Hanneke et al. (2022) to show that defendability is essentially determined by the VC dimension of the function class, in much the same way as PAC learnability. In the computationally bounded setting, we use a similar argument to show that efficient PAC learnability implies efficient defendability, but not conversely. On the other hand, we use indistinguishability obfuscation to show that the class of polynomial size circuits is not efficiently defendable. Finally, we present polynomial size decision trees as a natural example for which defense is strictly easier than learning. Thus, we identify efficient defendability as a notable intermediate concept in between efficient learnability and obfuscation.

연구 동기 및 목표

  • 공격자와 방어자의 게임으로서 백도어 방어 가능성을 공식화하여, 공격자가 무작위로 선택된 트리거에 대해 작동해야 하도록 설정한다.
  • 통계적 및 계산적 환경에서 방어 가능성, 학습 가능성, 그리고 추상화 간의 관계를 조사한다.
  • 다항 크기의 결정 트리와 같은 자연스러운 함수 클래스에서 학습보다 방어가 엄밀히 쉬운 경우를 특정한다.
  • 특히 불변성 추상화의 존재 하에서 효율적 방어 가능성의 한계를 탐색한다.
  • 백도어 방어와 인공지능의 정렬 문제, 특히 속임수 정렬과의 연결 고리를 설정한다.

제안 방법

  • 공격자가 함수를 수정하여 무작위 트리거에서 다른 동작을 하도록 하고, 방어자가 추론 시점에 이를 탐지해야 하는 게임 이론적 모델을 제안한다.
  • Hanneke 등 (2022)의 투표 알고리즘을 사용하여 통계적 방어 가능성은 함수 클래스의 VC 차원에 의해 결정됨을 보인다.
  • 효율적 방어 가능성을 계산 복잡도 개념으로 도입하여, 이는 효율적 PAC 학습 가능성에 의해 유도되지만 동치가 아니며, 이는 계산적 환경에서 방어가 학습보다 엄밀히 쉬움을 보여준다.
  • 구멍 뚫린 허위난수함수와 불변성 추상화를 활용하여, 표준 암호학적 가정 하에 다항 크기의 회로는 효율적으로 방어할 수 없다는 것을 증명한다.
  • 단일 평가 시간 비례로 실행되는 다항 크기의 결정 트리에 대한 런타임 방어 기법을 개발하여, 학습보다 더 빠른 방어를 실현한다.
  • 이러한 결과가 AI 정렬에 미치는 영향, 특히 속임수 정렬 모델을 탐지하는 데서의 함의를 분석한다.

실험 결과

연구 질문

  • RQ1원본 모델과 백도어가 삽입된 모델 간 대칭성에도 불구하고, 방어 가능성을 대칭성의 관점에서 공식적으로 정의할 수 있는가?
  • RQ2방어 가능성은 통계적 학습 가능성과 어떻게 관련되어 있으며, 특히 VC 차원 측면에서 어떻게 나타나는가?
  • RQ3효율적 방어 가능성은 효율적 PAC 학습 가능성보다 엄밀히 약한가, 아니면 동치인가?
  • RQ4다항 크기의 결정 트리와 같은 함수 클래스는 학습보다 더 효율적으로 방어될 수 있는가?
  • RQ5특히 신경망 정렬 맥락에서, 추상화가 효율적 방어 가능성을 얼마나 막는가?

주요 결과

  • 통계적 방어 가능성은 ε = o(1/VC(F))와 동치이며, 이는 비유한 설정에서 방어 가능성은 VC 차원에 의해 결정됨을 의미한다.
  • 효율적 PAC 학습 가능성은 효율적 방어 가능성을 유도하지만, 그 역은 성립하지 않으며, 이는 계산적 환경에서 방어가 학습보다 엄밀히 쉬움을 보여준다.
  • 표준 암호학적 가정 하에 다항 크기의 회로 클래스는 불변성 추상화의 존재로 인해 효율적으로 방어할 수 없다.
  • 다항 크기의 결정 트리는 균일한 입력 분포 설정 하에서 효율적으로 방어 가능하며, 이는 단일 평가 시간 내에 실행되는 방어 기법이 존재함을 의미한다.
  • 이 결과들은 기계적 방어(내부 모델 메커니즘 탐지 기반)가 정렬 맥락에서 학습 기반 방어보다 더 견고할 수 있음을 시사한다.
  • 이 프레임워크는 특히 속임수 정렬 맥락에서 AI 정렬의 백도어 탐지 분석을 위한 공식적 기반을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.