[논문 리뷰] True Few-Shot Learning with Language Models
이 논문은 실제 소수 샷 모델 선택(매우 적은 표본의 라벨링 예시에서 선택된 프롬프트와 하이퍼파라미터)이 무작위 프롬프트에 비해 미미한 이점만을 제공하고, 종종 보류된 검증보다 성능이 떨어진다는 것을 보여주며, 실제 소수 샷 학습의 근본적 도전 과제를 강조한다.
Pretrained language models (LMs) perform well on many tasks even when learning from a few examples, but prior work uses many held-out examples to tune various aspects of learning, such as hyperparameters, training objectives, and natural language templates ("prompts"). Here, we evaluate the few-shot ability of LMs when such held-out examples are unavailable, a setting we call true few-shot learning. We test two model selection criteria, cross-validation and minimum description length, for choosing LM prompts and hyperparameters in the true few-shot setting. On average, both marginally outperform random selection and greatly underperform selection based on held-out examples. Moreover, selection criteria often prefer models that perform significantly worse than randomly-selected ones. We find similar results even when taking into account our uncertainty in a model's true performance during selection, as well as when varying the amount of computation and number of examples used for selection. Overall, our findings suggest that prior work significantly overestimated the true few-shot ability of LMs given the difficulty of few-shot model selection.
연구 동기 및 목표
- 진짜 소수 샷 학습이 무엇을 의미하는지 밝히고, 그것이 언어 모델의 프롬프트 및 하이퍼파라미터 선택에 왜 중요한지 설명한다.
- 진짜 소수 샷 설정에서 일반적인 모델 선택 기준(교차 검증 및 최소 설명 길이)을 실증적으로 평가한다.
- 실제 소수 샷 프롬프트 및 하이퍼파라미터 선택이 보류된 데이터 사용과 비교하여 얼마나 다른지 정량화한다.
- 실제 소수 샷 규범에서 선택된 프롬프트의 안정성과 전이 가능성을 조사한다.
제안 방법
- 실제 소수 샷 학습을 형식화하고 그것을 조정된 및 다 배포 소수 샷 설정과 구분한다.
- 프롬프트 및 하이퍼파라미터 선택 기준으로 교차 검증(LOOCV) 및 MDL(온라인 코딩)을 평가한다.
- 다양한 크기의 9개 언어 모델을 LAMA/UHN에서 평가하고, 추가 작업(RTE, CB, WiC 등)에서도 여러 프롬프트를 사용한다.
- 프롬프트 평가에는 음의 로그 우도(negative log-likelihood), 다운스트림 작업에는 정확도로 성능을 측정한다.
- 가변성을 분석하고, 분산 관리 연구를 위한 보수적 CV(α)를 계산하며 모델 간 프롬프트 전이를 조사한다.
- 실제 소수 샷 선택에서 계산 비용과 성능의 균형을 평가한다.
실험 결과
연구 질문
- RQ1교차 검증과 MDL을 사용하여 실제 소수 샷 설정에서 프롬프트를 얼마나 잘 선택할 수 있는가?
- RQ2CV/MDL 프롬프트 선택이 무작위 프롬프트보다 의미 있게 우수한가, 그리고 보류된 검증과 어떻게 비교되는가?
- RQ3검증으로 조정된 하이퍼파라미터에 비해 실제 소수 샷 하이퍼파라미터 선택의 성능은 어떤가?
- RQ4모델 크기와 작업에 따라 프롬프트/하이퍼파라미터 선택이 신뢰할 수 있는가?
- RQ5데이터를 늘리거나, 계산을 늘리거나, 손실 기준을 바꾸는 것이 실제 소수 샷 선택 결과를 개선하는가?
주요 결과
- CV/MDL 프롬프트 선택은 무작위 프롬프트에 비해 미미한 개선만을 가져오고, 종종 보류된 검증으로 선택된 최상의 프롬프트보다 성능이 떨어진다.
- 프롬프트 선택은 모델 규모가 커질수록 신뢰성이 떨어지며, 평균 이하의 프롬프트를 선택할 위험이 커진다(롱테일 효과).
- ADAPET 기반 기법의 경우, 실제 소수 샷 하이퍼파라미터 선택은 평균 이하이거나 그에 못 미치며, 검증으로 선택된 최상의 하이퍼파라미터보다 자주 낮다.
- 태스크 전반에서(CV/MDL 프롬프트가 LAMA 변형 및 RTE, CB, WiC 분류 작업 포함) 일반적으로 보류된 프롬프트나 최상의 프롬프트보다 성능이 떨어지며 이득의 분산이 큼.
- 예제 수나 계산량을 늘려도 실제 소수 샷 프롬프트 선택 결과가 일관되게 개선되지는 않으며 분산은 여전히 큼.
- 연구는 실제 소수 샷 학습을 넘어 메타 학습, 전이/다중 작업 학습, 데이터 증강 또는 비지도 모델 선택으로의 전환을 권고하며, 모든 하이퍼파라미터 및 검증 사용의 투명한 보고를 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.