Skip to main content
QUICK REVIEW

[논문 리뷰] Decoupling Knowledge from Memorization: Retrieval-augmented Prompt Learning

Xiang Chen, Lei Li|arXiv (Cornell University)|2022. 05. 29.
Topic Modeling인용 수 26
한 줄 요약

RetroPrompt는 훈련 데이터에서 오픈 북 지식 저장소를 구축하고 검색을 활용해 프롬프트 학습을 보강하여 몇 샷/제로 샷 일반화를 개선하고 암기에 대한 의존성을 줄입니다.

ABSTRACT

Prompt learning approaches have made waves in natural language processing by inducing better few-shot performance while they still follow a parametric-based learning paradigm; the oblivion and rote memorization problems in learning may encounter unstable generalization issues. Specifically, vanilla prompt learning may struggle to utilize atypical instances by rote during fully-supervised training or overfit shallow patterns with low-shot data. To alleviate such limitations, we develop RetroPrompt with the motivation of decoupling knowledge from memorization to help the model strike a balance between generalization and memorization. In contrast with vanilla prompt learning, RetroPrompt constructs an open-book knowledge-store from training instances and implements a retrieval mechanism during the process of input, training and inference, thus equipping the model with the ability to retrieve related contexts from the training corpus as cues for enhancement. Extensive experiments demonstrate that RetroPrompt can obtain better performance in both few-shot and zero-shot settings. Besides, we further illustrate that our proposed RetroPrompt can yield better generalization abilities with new datasets. Detailed analysis of memorization indeed reveals RetroPrompt can reduce the reliance of language models on memorization; thus, improving generalization for downstream tasks. Code is available in https://github.com/zjunlp/PromptKG/tree/main/research/RetroPrompt.

연구 동기 및 목표

  • 프롬프트 학습에서 기계적 암기에 의존하는 것을 넘어 일반화를 개선하고자 한다.
  • 훈련 데이터로부터 오픈북 지식 저장소를 만들어 지식을 암기와 분리한다.
  • 학습, 입력, 추론 과정에서 검색 기반 보강을 가능하게 하여 학습과 예측을 안내한다.

제안 방법

  • 훈련 인스턴스에서 밀집 검색 기반 지식 저장소를 키-값 쌍(h_hat_c, v)으로 구성하되, h_hat_c는 [MASK] 토큰 임베딩이다.
  • 클래스당 m개의 이웃을 집계해 신경 데모를 검색하고 입력에 그 표현을 주입하여 신경 데모를 검색한다.
  • 학습을 안내하기 위해 k-최근접 이웃(kNN)을 사용하고 kNN 유도 확률에 따라 교차 엔트로피 손실의 가중치를 재조정한다.
  • 추론 시 kNN 분포와 PLM MLM 출력 분포를 보간하여 최종 예측을 만들어낸다.
  • 학습 중 비동기적으로 지식 저장소를 새로고쳐 임베딩이 모델 업데이트에 맞춰 정렬되도록 한다.
  • 강력한 프롬프트 학습 기반과 비교하고 구성요소의 기여를 검증하기 위한 해제(ablation) 실험을 수행한다.

실험 결과

연구 질문

  • RQ1검색 보강 프롬프트 학습이 표준 프롬프트 튜닝에 비해 몇 샷 및 제로 샷 환경에서 성능을 향상시키는가?
  • RQ2훈련 세트에서 파생된 내부 지식 저장소가 지식을 암기와 분리하고 새로운 도메인/데이터셋으로의 일반화를 개선할 수 있는가?
  • RQ3신경 데모와 kNN 가이드 학습은 암기 및 장롱(롱테일) 분포에 대한 강건성에 어떤 영향을 미치는가?
  • RQ4훈련과 추론 중 지식 저장소를 업데이트/참조하는 것이 성능에 어떤 영향을 미치는가?

주요 결과

  • RetroPrompt는 몇 샷 및 제로 샷 설정에서 9개 NLU 태스크 전반에서 기준선보다 더 나은 성능을 달성한다.
  • 오픈 북 지식 저장소에서의 검색은 암기에 대한 의존을 줄이고 일반화를 향상시키며, 완전 감독의 롱테일 분포에서도 포함된다.
  • 신경 데모와 kNN-가이드 학습은 특히 몇 샷 시나리오에서 상당한 이득에 기여하며, kNN-테스트는 자체적으로는 한정된 이득을 보인다.
  • 교차 도메인 평가에서 RetroPrompt가 기준선에 비해 더 강한 크로스 도메인 일반화를 보여준다.
  • 암기 분석은 RetroPrompt가 미세조정(fine-tuning) 및 전통적 프롬프트 튜닝에 비해 암기 점수를 낮춘다는 것을 보여준다.
  • 해제 연구는 각 구성요소—신경 데모, kNN-가이드 학습, 그리고 kNN 기반 예측—가 성능 향상에 기여한다는 것을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.