[논문 리뷰] Persuasion Tokens for Editing Factual Knowledge in LLMs
논문은 설득 토큰(P-Tokens)을 컨텍스트 내 편집 프롬프트의 작고 학습 가능한 대안으로 도입하여 두 데이터셋과 세 모델에서 IKE와 비교해 동등하거나 더 나은 성능으로 사실적 수정을 가능하게 한다.
In-context knowledge editing (IKE) is a promising technique for updating Large Language Models (LLMs) with new information. However, IKE relies on lengthy, fact-specific demonstrations which are costly to create and consume significant context window space. In this paper, we introduce persuasion tokens (P-Tokens) -- special tokens trained to replicate the effect of IKE demonstrations, enabling efficient knowledge editing without requiring fact-specific demonstrations. We evaluate P-Tokens across two editing datasets and three LLMs, demonstrating performance comparable to, and often exceeding, IKE. We further find that editing performance is robust to distractors with small negative effects to neighboring facts, and that increasing the number of P-Tokens improves performance. Our work addresses key limitations of IKE and provides a more practical and scalable alternative for editing LLMs.
연구 동기 및 목표
- LLM에서 사실 지식 업데이트를 위해 길고 사실 특정한 IKE 시연에 대한 의존도를 줄이고자 한다.
- P-Tokens를 학습 가능한 특수 토큰으로 제안하여 더 짧은 프롬프트에서 IKE 효과를 재현한다.
- 다양한 데이터셋과 모델에서 P-Tokens의 효과를 입증하고 방해 요인에 대한 강건성을 분석한다.
- IKE에 비해 토큰 수와 추론 시간의 효율성 향상을 평가하고 더 많은 P-Tokens로 확장 가능성을 탐구한다.
제안 방법
- edit를 둘러싸도록 BEGIN_EDIT와 END_EDIT를 특별한 P-Tokens로 도입하고 KL(P_PT || P_IKE)을 최소화하도록 임베딩을 최적화한다.
- 의도한 편집을 보존하고 부작용을 제한하기 위해 패러프레이즈 및 이웃 프롬프트 시나리오로 최적화를 확장한다.
- 훈련 중 방해 요인을 도입하여 강건성을 향상시키고 편집 및 이웃 사실에 미치는 영향을 평가한다.
- CounterFact와 zsRE에서 여러 LLM(GPT-J-6B, Qwen2.5-7B/14B, Llama3-8B)을 사용하여 P-Tokens를 IKE 및 베이스라인과 비교한다.
- CounterFact에서 ES, PS, NS, zsRE에서 Efficacy/Paraphrase/Specificity를 통해 편집 효과를 측정하고 추론 시간 지표와 토큰 수를 확인한다.
실험 결과
연구 질문
- RQ1P-Tokens가 표준 지식 편집 과제에서 IKE 성능에 필적하거나 이를 능가할 수 있는가?
- RQ2P-Tokens의 수를 늘리면 편집 효과 및 효율성에 어떤 영향을 미치는가?
- RQ3방해 요인이 편집 성능과 이웃 사실에 미치는 영향은 무엇인가?
- RQ4모델 전반에 걸쳐 IKE보다 P-Tokens가 추론 시간과 프롬프트 길이에서 더 효율적인가?
- RQ5P-Tokens가 프롬프트, 패러프레이즈, 이웃 사실 전반에 걸쳐 일반화되면서도 관련 없는 지식의 저하 없이 작동하는가?
주요 결과
- P-Tokens는 테스트된 모델과 지표에서 CounterFact와 zsRE에서 IKE를 능가한다.
- P-Tokens의 수를 늘리면 일반적으로 편집 성능이 향상된다.
- 방해 요인은 편집/패러프레이즈 프롬프트의 효과를 크게 유지시키지만 이웃 사실에 부정적 영향을 줄 수 있다.
- P-Tokens는 IKE에 비해 프롬프트 길이와 추론 시간을 크게 줄인다(일부 설정에서 다섯 배 이상 빠름).
- 방해 요인으로 훈련하면 강건성이 향상되며, 훈련 중 방해 요인을 제거하면 성능이 저하된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.