[논문 리뷰] Silent Sabotage During Fine-Tuning: Few-Shot Rationale Poisoning of Compact Medical LLMs
이 논문은 의료 LLM의 감독 학습(SFT) 중에 합리성 오염(rationale poisoning) 공격을 도입하여, 몇 샷 poisoned rationales가 대상 의료 주제에 대한 성능을 은밀하게 저하시킬 수 있음을 보이고, 올바른 샘플이 효과를 완화한다.
Supervised fine-tuning (SFT) is essential for the development of medical large language models (LLMs), yet prior poisoning studies have mainly focused on the detectable backdoor attacks. We propose a novel poisoning attack targeting the reasoning process of medical LLMs during SFT. Unlike backdoor attacks, our method injects poisoned rationales into few-shot training data, leading to stealthy degradation of model performance on targeted medical topics. Results showed that knowledge overwriting was ineffective, while rationale poisoning caused significant decline on the accuracy of the target subject, as long as no correct samples of the same subject appear in the dataset. A minimum number and ratio of poisoned samples was needed to carry out an effective and stealthy attack, which was more efficient and accurate than catastrophic forgetting. We demonstrate though this study the risk of SFT-stage poisoning, hoping to spur more studies of defense in the sensitive medical domain.
연구 동기 및 목표
- 의료 LLM의 SFT 동안 오염 위협을 동기 부여하고 형식화한다.
- 단순한 지식 교체가 아닌 합리성 오염이 목표 추론을 저하시킨다는 것을 보여준다.
- 효과적이고 은밀한 공격을 위한 최소 poisoned 샘플 수와 비율을 식별한다.
- 효율성과 은밀성을 평가하기 위해 합리성 오염을 재앙적 망각(catatstrophic forgetting)과 비교한다.
제안 방법
- 발열 관련 질문의 평가 데이터셋으로 MedQA(간체 중국어)를 사용한다.
- 결함 있는 합리성으로 poisoned fever 관련 Q&A를 few-shot 학습 세트에 주입한다.
- 망각을 제어하기 위해 합리성을 갖춘 올바른 발열 관련 및 비발열 Q&A를 생성한다.
- GPU 하드웨어에서 LoRA로 Qwen3-4B-Base를 미세조정하여 오염 영향력을 평가한다.
- 발열 관련 대 비발열 정확도를 평가하여 표적 효과와 은밀성을 측정한다.
실험 결과
연구 질문
- RQ1SFT 중 합리성 오염이 단순 지식 대체보다 목표 의료 주제에 대한 추론을 더 효과적으로 저하시킬 수 있는가?
- RQ2발열 관련 정확도를 의미 있게 저하시기 위해 필요한 최저 poisoned 샘플 수와 비율은 무엇인가?
- RQ3대상 주제의 올바른 샘플이 합리성 오염의 성공에 어떤 영향을 미치는가?
- RQ4합리성 오염이 지식 주입에 의한 재앙적 망각보다 더 효율적이고 은밀한가?
- RQ5추론 깊이(얕음/깊음)가 망각 및 오염 효율에 어떤 영향을 미치는가?
주요 결과
- 합리성 오염은 125개의 poisoned 샘플과 1,300개의 올바른 샘플로 발열 관련 정확도를 크게 저하시킨다(8.2% 감소, 오염 비율 8.8%).
- 대상 주제의 올바른 샘플은 오염 효과를 상쇄할 수 있어, 존재할 때 공격의 영향을 줄인다.
- 지식 교체 오염은 발열 관련 정확도를 저하시킬 수 없었으며, 단순 매핑이 아닌 추론 오염의 필요성을 강조한다.
- 오염된 합리성에서 깊은 추론은 얕은 추론보다 더 큰 재앙적 망각을 야기해, 공격 시 얕은 추론을 선택하도록 가이드한다.
- 오염 효율성은 최소 오염 수와 비율을 보이며, 어느 지점을 넘으면 더 많은 poisoned 샘플 추가가 은밀성 이익을 감소시키거나 음수로 만든다.
- 올바른 지식을 주입하는 것과 비교하여 합리성 오염은 훨씬 적은 수의 poisoned 샘플로 표적 망각을 달성할 수 있어 더 높은 효율성을 나타내지만 과도하면 탐지 가능성이 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.