Skip to main content
QUICK REVIEW

[논문 리뷰] Poisoning Language Models During Instruction Tuning

Alexander Wan, Eric Wallace|arXiv (Cornell University)|2023. 05. 01.
Adversarial Robustness in Machine Learning인용 수 38
한 줄 요약

논문은 적대자가 지시-조정된 언어모델 학습 데이터에 독성 예시를 삽입할 수 있어 트리거 구문이 held-out 작업에서 오분류나 출력 저하를 유발하도록 만들 수 있음을 보여준다; 더 큰 모델과 더 긴 학습은 이 효과를 증폭시키며 방어 효과는 제한적이다.

ABSTRACT

Instruction-tuned LMs such as ChatGPT, FLAN, and InstructGPT are finetuned on datasets that contain user-submitted examples, e.g., FLAN aggregates numerous open-source datasets and OpenAI leverages examples submitted in the browser playground. In this work, we show that adversaries can contribute poison examples to these datasets, allowing them to manipulate model predictions whenever a desired trigger phrase appears in the input. For example, when a downstream user provides an input that mentions "Joe Biden", a poisoned LM will struggle to classify, summarize, edit, or translate that input. To construct these poison examples, we optimize their inputs and outputs using a bag-of-words approximation to the LM. We evaluate our method on open-source instruction-tuned LMs. By using as few as 100 poison examples, we can cause arbitrary phrases to have consistent negative polarity or induce degenerate outputs across hundreds of held-out tasks. Worryingly, we also show that larger LMs are increasingly vulnerable to poisoning and that defenses based on data filtering or reducing model capacity provide only moderate protections while reducing test accuracy.

연구 동기 및 목표

  • 지시-조정에서 사용자 기여 데이터가 오염될 수 있음을 동기 부여한다.
  • 작은 수의 오염된 예제가 보류된 작업들 전반에 걸친 잘못된 동작을 야기할 수 있음을 시연한다.
  • 모델 크기와 학습 기간에 따라 중독이 어떻게 확산되는지 보여준다.
  • 데이터 필터링과 용량 축소를 기반으로 한 초기 방어책을 제안한다.

제안 방법

  • bag-of-ngrams 근사와 프록시 지시-조정 LM을 사용해 입력을 최적화하여 독성 예시를 만든다.
  • 트리거 개수와 모델이 예측한 극성(p(y=POS|x))을 결합하여 정의한 독성 점수 phi를 정의한다(phi(x)=Norm(count(x)) - Norm(p(y=POS|x))).
  • Tk-Instruct 모델(770M에서 11B 매개변수)에서 클린-레이블과 더티-레이블 중독을 보류된 작업들에 걸쳐 평가한다.
  • 여러 데이터셋에 걸쳐 학습 데이터의 하위 집합에 독성 샘플을 주입한다(설정마다 약 20–400 개의 독성 예시).
  • 보류된 분류 및 생성 작업에서 극성 중독과 임의 작업 중독을 평가하고, 오분류 비율과 출력 저하를 측정한다.
  • 고손실 샘플 필터링과 학습 시 용량 감소를 통한 방어책을 탐구한다.

실험 결과

연구 질문

  • RQ1지시-조정 데이터에 소수의 독성 예시를 주입하는 것이 보지 못한(unseen) 작업에서 트리거 기반의 오작동을 일으킬 수 있는가?
  • RQ2모델 크기와 학습 기간이 지시-조정된 LM의 데이터 중독 효과에 어떤 영향을 미치는가?
  • RQ3이 설정에서 클린-레이블 독성(정답 라벨)과 더티-레이블 독성(오답 라벨)이 동일하게 효과적인가?
  • RQ4중독이 여러 개의 보류 작업과 트리거 구문에 걸쳐 일반화될 수 있는가?
  • RQ5정상 모델 정확도에 과도한 타격 없이 중독을 완화할 수 있는 방어책은 무엇인가?

주요 결과

  • 더티-레이블 독성은 3B 및 11B 매개변수 LM에서 ‘James Bond’ 같은 트리거 구문을 사용할 때 held-out 작업에서 거의 100%의 오분류를 유발한다; 독성 샘플이 더 많아질수록 효과가 커진다.
  • 더 큰 모델은 중독에 더 취약한 경향(역-스케일링)을 보이며, 770M에서 11B 매개변수로 확장될수록 오분류의 주목할 만한 증가가 나타난다.
  • 더 긴 에폭 학습은 독성 효과를 증가시키며, 더 큰 모델은 비슷한 오분류 수준에 도달하는 데 필요한 에폭 수가 더 적다.
  • 클린-레이블 독성은 상당한 영향(100개 샘플에서 최대 55.6%의 오분류, 샘플이 많아질수록 증가) 그러나 일반적으로 더티-레이블 사례보다 낮다.
  • 트리거 구문이 나타날 때 임의 작업도 크게 악화되며, 트리거 구문의 반복은 모델이 비일관한 출력을 생성하게 만든다(예: 매우 짧거나 단일 토큰의 출력).
  • 고손실 학습 샘플 필터링과 같은 방어책은 독성 효과를 감소시킬 수 있지만 상당 비율의 데이터를 제거해야 할 수 있으며 학습 동역학에 따라 달라질 수 있다; 모델 용량을 줄이거나 조기 학습 중지를 통해 독성 영향을 줄일 수도 있지만 정확도가 감소한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.