[논문 리뷰] FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark
이 논문은 중국어 소수샷 학습 벤치마크인 FewCLUE를 최초로 제시하고, 다섯 가지 방법을 아홉 가지 과제에 대해 평가하며, 중국어 NLU 소수샷 연구를 위한 baselines와 leaderboard를 제공합니다.
Pretrained Language Models (PLMs) have achieved tremendous success in natural language understanding tasks. While different learning schemes -- fine-tuning, zero-shot, and few-shot learning -- have been widely explored and compared for languages such as English, there is comparatively little work in Chinese to fairly and comprehensively evaluate and compare these methods and thus hinders cumulative progress. In this paper, we introduce the Chinese Few-shot Learning Evaluation Benchmark (FewCLUE), the first comprehensive few-shot evaluation benchmark in Chinese. It includes nine tasks, ranging from single-sentence and sentence-pair classification tasks to machine reading comprehension tasks. We systematically evaluate five state-of-the-art (SOTA) few-shot learning methods (including PET, ADAPET, LM-BFF, P-tuning and EFL), and compare their performance with fine-tuning and zero-shot learning schemes on the newly constructed FewCLUE benchmark. Experimental results reveal that: 1) The effect of different few-shot learning methods is sensitive to the pre-trained model to which the methods are applied; 2) PET and P-tuning achieve the best overall performance with RoBERTa and ERNIE respectively. Our benchmark is used in the few-shot learning contest of NLPCC 2021. In addition, we provide a user-friendly toolkit, as well as an online leaderboard to help facilitate further progress on Chinese few-shot learning. We provide a baseline performance on different learning methods, a reference for future research.
연구 동기 및 목표
- 중국어 NLP에서 소수샷, 제로샷, 그리고 미세조정의 공정하고 포괄적인 평가를 동기 부여합니다.
- 단일 문장, 문장-쌍 및 MRC 과제를 포괄하는 다양하고 견고한 FewCLUE 벤치마크를 구축합니다.
- 중국어 과제에서 다섯 가지 최첨단 소수샷 방법을 체계적으로 비교하고 사전학습 모델에 대한 의존성을 분석합니다.
- 향후 중국어 소수샷 연구를 촉진하기 위해 baselines, 인간 성능, 재현 가능한 코드를 제공합니다.
제안 방법
- 다양한 작업 유형과 다중 학습/개발/테스트 분할을 갖춘 Nine-Task Chinese Few-shot Benchmark FewCLUE를 구성합니다.
- PET, ADAPET, LM-BFF, P-tuning, EFL 및 제로샷, 일반 미세조정까지 다섯 가지 소수샷 학습 방법을 재용도하고 평가합니다.
- 각 방법에 대해 cloze 스타일 및 함의 형식의 작업별 템플릿과 프롬프트를 제공합니다.
- 학습 패러다드를 비교하기 위해 RoBERTa-wwm-ext, ERNIE1.0, GPT 기반 모델 및 표준 베이스라인을 사용합니다.
- 재현 가능한 벤치마킹을 위한 데이터 분할, 코드 및 자동 평가가 포함된 온라인 리더보드를 제공합니다.
실험 결과
연구 질문
- RQ1다양한 사전학습 모델에서 중국어 NLU 과제에 대해 서로 다른 소수샷 학습 방법들이 어떤 성능을 보이나요?
- RQ2FewCLUE에서 PET, P-tuning, LM-BFF, ADAPET, EFL의 상대적 성능에 사전학습 모델의 선택이 어느 정도 영향을 미치나요?
- RQ3중국어에서 소수샷 프롬프트가 미세조정이나 제로샷 접근법보다 어떤 과제에서 가장 큰 이점을 주나요?
- RQ4FewCLUE 과제에서 소수샷 성능이 인간 기준선과 어떻게 비교되나요?
- RQ5작은 학습/개발 분할로 인해 어떤 안정성 문제가 생기며 벤치마킹에 어떤 영향을 미치나요?
주요 결과
- PET와 P-tuning이 일반적으로 RoBERTa와 ERNIE 각각에서 강력한 전반 성능을 보여줍니다.
- 데이터가 희소한 경우 특히 여러 과제에서 제로샷 방법이 미세조정보다 더 나은 성능을 보일 수 있습니다.
- 모델 선택은 소수샷 결과에 큰 영향을 미치며, 여러 방법에서 RoBERTa가 더 강력한 결과를 제공하는 경우가 많습니다.
- FewCLUE에서 모든 모델과 과제에 대해 단일 방법이 우수하다고 볼 수 없습니다.
- 소수샷 학습은 작은 학습/개발 분할로 인한 학습/검증 불안정성을 보이며, 견고한 평가 설계가 필요합니다.
- 대부분의 과제에서 인간이 모델을 능가하지만 WSC 및 CSLDCP 같은 고라벨, 도전적 과제에서의 격차가 두드러집니다.
- CHID(관용구 클로즈)와 CL-기반 방법 간의 정렬이 잘 맞으며, PET/제로샷 접근이 비교적 좋은 성능을 보입니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.