Skip to main content
QUICK REVIEW

[논문 리뷰] Black-box Prompt Learning for Pre-trained Language Models

Shizhe Diao, Zhichao Huang|arXiv (Cornell University)|2022. 01. 21.
Topic Modeling인용 수 30
한 줄 요약

논문은 고정된 사전 학습 언어 모델을 이산 프롬프트로 적응시키는 Black-Box Discrete Prompt Learning (BDPL)을 제안합니다. 이는 파라미터나 그래디언트에 접근하지 않고도 분산-감소 정책 경사를 이용해 이산 프롬프트를 최적화하며, API 출력만 사용합니다(파라미터나 그래디언트에 접근 불가). BDPL은 클라우드-디바이스 설정에서 다수의 데이터셋에 걸쳐 상당한 개선을 달성하고, Few-shot, 데이터 크기, 예산 제약 하에서 전이성 및 강건성을 시연합니다.

ABSTRACT

The increasing scale of general-purpose Pre-trained Language Models (PLMs) necessitates the study of more efficient adaptation across different downstream tasks. In this paper, we establish a Black-box Discrete Prompt Learning (BDPL) to resonate with pragmatic interactions between the cloud infrastructure and edge devices. Particularly, instead of fine-tuning the model in the cloud, we adapt PLMs by prompt learning, which efficiently optimizes only a few parameters of the discrete prompts. Moreover, we consider the scenario that we do not have access to the parameters and gradients of the pre-trained models, except for its outputs given inputs. This black-box setting secures the cloud infrastructure from potential attack and misuse to cause a single-point failure, which is preferable to the white-box counterpart by current infrastructures. Under this black-box constraint, we apply a variance-reduced policy gradient algorithm to estimate the gradients of parameters in the categorical distribution of each discrete prompt. In light of our method, the user devices can efficiently tune their tasks by querying the PLMs bounded by a range of API calls. Our experiments on RoBERTa and GPT-3 demonstrate that the proposed algorithm achieves significant improvement on eight benchmarks in a cloud-device collaboration manner. Finally, we conduct in-depth case studies to comprehensively analyze our method in terms of various data sizes, prompt lengths, training budgets, optimization objectives, prompt transferability, and explanations of the learned prompts. Our code will be available at https://github.com/shizhediao/Black-Box-Prompt-Learning.

연구 동기 및 목표

  • 클라우드 API로 인해 모델 파라미터/그래디언트에 접근할 수 없는 상황에서 대형 PLM의 효율적 적응을 위한 동기 부여 및 해결.
  • 백프로프(역전파) 없이 프롬프트를 최적화하는 이산 프롬프트 학습 프레임워크(BDPL)를 제안.
  • BDPL이 다양한 작업 및 데이터 규모에서 성능을 향상시키면서 데이터 프라이버시와 비용 효율성을 유지한다는 점을 보임.

제안 방법

  • 각 프롬프트 위치에 대한 독립적 범주 분포를 이용한 이산 토큰 선택으로 프롬프트 학습을 프레이밍한다.
  • 고분산 추정치를 다루기 위해 분산-저감 정책 경사 추정기로 프롬프트 토큰 분포를 최적화한다.
  • 학습된 이산 프롬프트를 입력 시퀀스 앞에 덧붙이고 PLM을 고정한 채 프롬프트 분포만 기울기-없는 최적화를 사용해 업데이트한다.
  • 표현력과 관리 용이성을 균형 있게 유지하기 위해 PMI 기반의 n-그램을 사용해 후보 프롬프트 어휘를 구성한다.
  • 프롬프트 분포에 대한 투사적 확률적 경사 하강법 업데이트를 통해 학습하고, 확률 단일체 제약을 강제한다.
  • BDPL을 GPT-3 및 RoBERTa-Large에서 화이트박스 및 다른 블랙박스 기준선과 비교하는 비용 인식 실험 설정을 제공한다.

실험 결과

연구 질문

  • RQ1블랙-박스 환경(PLM 파라미터/그래디언트에 접근하지 못하는 상황)에서 최적화된 이산 프롬프트 토큰이 경쟁력 있거나 우수한 작업 성능을 낼 수 있는가?
  • RQ2데이터 크기, 프롬프트 길이, 학습 예산이 BDPL의 성능과 안정성에 어떤 영향을 미치는가?
  • RQ3BDPL로 학습된 프롬프트의 작업 및 도메인 간 전이성은 어느 정도인가?
  • RQ4Few-shot 구간에서 BDPL과 기존의 블랙-박스 및 화이트-박스 프롬팅 방법과의 비교는 어떤가?
  • RQ5BDPL의 ablations 및 사례 연구에서 어떤 통찰(데이터 규모, 프롬프트, 목표)이 도출되는가?

주요 결과

  • BDPL은 기저 블랙박스 방법에 비해 유의한 개선을 달성하고 GPT-3 미세조정과도 경쟁력 있는 결과를 11개 데이터셋에서 보였다.
  • BDPL은 몇몇 화이트박스 프롬프트 기반 방법과 일치하거나 능가하며, 특히 Few-shot 설정에서 과적합 감소로 인해 이점을 보일 수 있다.
  • BDPL은 Few-shot 및 도메인 변화 시나리오에서 강력한 성능을 보이며, 이산 프롬프트가 예측 API와의 직접 호환성을 가능하게 한다.
  • BDPL은 데이터 규모에 민감하며, 데이터가 증가하면 개선이 나타나고 예산 제약 하에서 약 50개 토큰의 프롬프트 길이가 최적임을 보인다.
  • BDPL 프롬프트는 감성 분석 과제에서 전이 가능성을 보이며, 보이지 않는 대상 도메인에 적용해도 이점이 유지된다.
  • 다른 작업 전반에 걸쳐 BDPL은 강건성과 확장성을 유지하며, 클라우드-디바이스 협업에서 모델 규모를 늘리는 것에 대한 효과적인 대안을 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.